A Framework for Human Pose Estimation in Videos 部分翻译

最新推荐文章于 2022-07-01 21:43:02 发布

马里奥奥利奥

最新推荐文章于 2022-07-01 21:43:02 发布

阅读量178

点赞数

分类专栏：计算机视觉人体姿态估计

本文链接：https://blog.csdn.net/surserrr/article/details/88952066

版权

计算机视觉同时被 2 个专栏收录

11 篇文章 2 订阅

订阅专栏

人体姿态估计

6 篇文章 4 订阅

订阅专栏

视频中的人体姿态估计框架

介绍

人体姿态估计对于许多计算机视觉应用是至关重要的，包括人机交互、活动识别和视频监控。人体姿态估计是一个有挑战性的问题，因为它具有大的外观差异，人体的非刚性，背景杂乱和自我遮挡等特点。最近，人体姿态估计在解决无约束的单幅图像问题上取得了重大进展; 然而，视频中的人体姿态估计仍是一个相对较新且前景广阔的问题，需要进行改进。显然，可以将基于单个图像的姿势估计方法应用于每个视频以获得初始姿态估计，然后通过帧的进一步细化以使姿势估计连贯且更准确。然而由于视频数据的复杂性，大多数基于视频的人体姿态估计算法的公式非常复杂（通常是NP难），为此提出了近似解决方案来解决它们，但是这会导致次优解。此外，大多数现有的方法将身体部位建模为树状结构，这些方法往往会遇到重复计算问题[2]（这意味着对称部分，例如左右脚踝，很容易混合在一起）。本文旨在以不同的方式解决基于视频的人体姿态估计问题，使得该问题在多项式时间内可以得到精确解，并且还有效地执行身体部位之间的时空约束（这将解决重复计算问题）。

图形优化公式是用于视频人体姿势估计的一种常用方法，它有两种类型。一种类型是在每个帧中生成几个人体姿势假设，并中选择一个最佳假设，同时确保它们在整个视频中保持一致。这种方法的推理是非常有效的，但是由于姿势构造的变化大，很难获得正确估计所有身体部位的良好姿势。因此，引入另一种类型来分别处理每个身体部位，在该构想中，遵循每个帧中的身体部位之间的空间约束以及相邻帧之间的外观和位置的时间一致性，生成每个帧中的每个身体部位的假设，该构想的目标是对所有帧的每一部分选择最佳部分假设。这种构想是合理的，因为它能够扩展足够多样的人体姿势构造，并且还能够有效地模拟身体部位之间的时空约束。尽管这个想法有很多好处，但由于其潜在的循环图结构，是一个NP难问题（即图中有太多简单的循环）。为了解决NP难为题，提出了几种不同的算法。为了降低帧间简单周期引起的复杂性，Tokola提出了一种选择跟踪框架，该框架分别跟踪每个身体部位并在后一阶段将它们组合起来。Cherian提出了一种近似方法，该方法关注不太确定的部分以降低复杂性。 Ramakrishna等人介绍了一种考虑对称部分的方法，并提出了一种处理循环图的近似解。 Sapp等人将原始模型分解为许多子模型，这些子模型是基于树的结构因而可解。所有上述方法都很有见地，然而，它们都没有同时利用身体部位之间的重要约束（例如部件的对称性）并具有有效的精确解。

基于上面的讨论，主要问题是：如何尽可能地利用每帧中身体部位之间的空间约束和时间一致性，并提供有效的精确解决方案？由于基于树的优化问题具有多项式时间解，问题变为：如何制定问题以模拟视频帧之间身体部位的有用的空间和时间约束并且不产生简单循环？我们提出了两个关键方法来解决这个问题，它将原始完全连接的模型近似简化成基于树的模型。第一个想法是抽象：与身体部位的标准树表示形成对比，我们引入了一个新的概念，即抽象的身体部位，从概念上将对称的身体部位组合起来，它利用了人体部位的对称性质，且不会引入简单的循环。第二个想法是组合，每个抽象的身体部位生成最佳的追踪器，以确保时间一致性，由于每个抽象的身体部分是分开处理的，因此它不会在图中引入任何时间简单的循环。所提出的方法与现有技术方法在以下方面不同：跟踪对称部分算法利用身体部位的对称性，问题被制定为具有互斥的多目标跟踪问题，这是NP难的，并且只能通过松弛获得近似解; Tokola提出的方法旨在去除时间简单循环以跟踪上半身部分，然而，如果应用于全身姿态估计，所采用的连接树算法具有更高的计算复杂度，因为对称的身体部位引起了更多的简单循环; 与混合身体部分序列方法相比，本方法没有时间简单循环; 与可伸缩的模型算法相比，它可以更准确地模拟对称的身体部位结构，相较于建立子模型。因此，所提出的方法确保了空间和时间约束，不会在方法中引入任何简单的循环，并且可以通过动态编程有效地找到精确的解决方案。

相关工作

近年来已经报告了大量关于人体姿势估计的工作。早期的工作主要集中在受控环境中的人体姿态估计和跟踪; 有一些重要的使用深度图像的工作。在无约束的场景中基于单幅图像的人体姿态估计在过去的几年中取得了巨大的进步; 然而，在无约束场景中基于视频的人体姿态估计仍处于非常早期阶段，并且仅在最近才开展了一些先驱研究。

对于无约束场景中基于图像的人体姿态估计，大多数专注于图像结构模型的工作已经进行了很长一段时间，并且获得了期望的性能。2011年，Yang等人提出了一种灵活的部位混合模型来推断姿势配置，结果很好。2011年Johnson等人引入了一种新方案来处理大量训练样本，这使姿势估计准确性显着增加。 2012年Simo-Serra等人试图从单个图像估计3D人体姿势。在许多工作中利用了身体部位的高阶依赖性。 2012年Tian提出了一个具有精确解的分层空间模型，而在2013年Pishchulin通过定义条件模型来实现这一点，2014年Ramakrishna,等人使用推理机器来探索身体部位之间丰富的空间相互作用。在2013年Shotton提出了一种新颖的非线性联合回归模型，它很好地处理了基于树的模型的模糊问题。最近，深度学习也被引入用于人体姿势估计。

对于无约束场景中基于视频的人体姿态估计，一些早期研究采用了逐个检测框架。最近的方法主要分为侧重于上身姿态估计和全身姿态估计。在2011年Park等人在每个帧中生成许多姿势候选，并且从帧中选择具有高检测分数的最一致的姿势候选。在2013年Tokola等人提出了一种逐选跟踪框架，以简化图优化问题，从而实现精确推理。在2014年Cherian等人将姿势分解为肢体，并重新组合在一起以获得视频中的姿势估计。2011年Sapp 等人将身体部位的完整模型分解为许多基于树的子模型，这使得他们能够得到子模型的精确推断。 Ramakrishna等人模拟了身体部位的对称结构，并提出了一个有效的近似解决方案。

马里奥奥利奥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
A Framework for Human Pose Estimation in Videos 部分翻译

视频中的人体姿态估计框架介绍人体姿态估计对于许多计算机视觉应用是至关重要的，包括人机交互、活动识别和视频监控。人体姿态估计是一个有挑战性的问题，因为它具有大的外观差异，人体的非刚性，背景杂乱和自我遮挡等特点。最近，人体姿态估计在解决无约束的单幅图像问题上取得了重大进展; 然而，视频中的人体姿态估计仍是一个相对较新且前景广阔的问题，需要进行改进。显然，可以将基于单个图像的姿势估...
复制链接

扫一扫