OpenPose论文的Introduction部分

鱼儿会飞吗

于 2024-03-19 16:35:46 发布

阅读量374

点赞数 3

分类专栏：论文精读文章标签：人工智能神经网络深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_34425255/article/details/136847188

版权

论文精读专栏收录该内容

14 篇文章 0 订阅

订阅专栏

在本文中，我们考虑了详细了解图像和视频中人物的一个核心组成部分：人体 2D 姿态估计——或定位解剖关键点或“部分”的问题。人类的估计主要集中在寻找个体的身体部位上。推断图像中多个人的姿势会带来一系列独特的挑战。首先，每张图像可能包含未知数量的人物，这些人物可以出现在任何位置或比例。其次，人与人之间的互动会因接触、咬合或肢体关节而引起复杂的空间干扰，使各部分难以联想。第三，运行时的复杂性往往会随着图像中人数的增加而增加，这使得实时性能成为一项挑战。

一种常见的方法是使用人员检测器，并对每次检测进行单人姿态估计。这些自上而下的方法直接利用现有的技术进行单人姿态估计，但受到早期承诺的影响：如果人员检测器出现故障——就像人们在近距离接触时容易发生的那样——就没有恢复的办法。此外，它们的运行时间与图像中的人数成正比，对于每个人的检测，都会运行一个人的姿势估计器。相比之下，自下而上的方法很有吸引力，因为它们为早期承诺提供了鲁棒性，并有可能将运行时复杂性与图像中的人数分离。然而，自下而上的方法并不直接使用来自其他身体部位和其他人的全局上下文线索。最初的自下而上的方法（[1]，[2]）没有保持效率的提高，因为最终的解析需要昂贵的全局推理，每张图像需要几分钟。

在本文中，我们提出了一种有效的多人姿态估计方法，该方法在多个公共基准上具有竞争力。我们通过部分亲和场（PAF）首次自下而上表示关联分数，PAF 是一组 2D 向量场，用于编码肢体在图像域上的位置和方向。我们证明，同时推断这些自下而上的检测和关联表示可以编码足够的全局上下文，以便贪婪的解析以计算成本的一小部分获得高质量的结果。

在文章中，提出了pose estimation的以下挑战。
(1) 图像中的人数位置，他们可能出现在任何位置，且大小不一。
(2) 在相互接触，以及遮挡等不好的情况都会对关键点的检测造成困难，同时随着人数的数量增加，运行时间的复杂度，也会上升，使得实时的表示成为一个挑战。这种方法，主要采用的是检测+singel person eatimation。但是这种方法十分依赖检测的准确率，如果检测凉了，那么后面的key point还找啥呀。
(3) 如果检测极其牛，但是有30个人，那么需要进行30重复的单人人体姿态估计，这样使这个方法在复杂场景下就会变得十分缓慢。