OpenPose 论文阅读

一、Abstract(论文摘要)

提出了一种有效检测图像中多人二维姿态的方法。该方法使用非参数表示,我们将其称为部分亲和域(PAFs),以学习将身体部位与图像中的个体相关联。该体系结构对全局上下文进行编码,允许一个贪婪的自底向上解析步骤,该步骤在保持高精确度的同时实现实时性能,而不考虑映像中的人员数量。该体系结构旨在通过同一顺序预测过程的两个分支共同学习部件位置及其关联。我们的方法在首届COCO 2016关键点挑战赛中排名第一,在性能和效率上都大大超过了之前MPII多人基准测试的最新成果。

 

二、介绍(挑战以及一般方法)

人体二维姿态估计——定位解剖关键点或“部位”的问题——主要集中在寻找个体的身体部位[8,4,3,21,33,13,25,31,6,24]。在图像中推断多个人物的姿势,特别是社会参与的个人,提出了一系列独特的挑战。

首先,每个图像可能包含在任何位置或范围内的未知人数。

第二,人与人之间的互动导致了复杂的空间干扰,由于接触、遮挡和肢体关节,使得部分之间的联系变得困难。

第三,运行时复杂度随着图像中人员的增加而增加,这使得实时性能成为一个挑战。

一种常见的方法[23,9,27,12,19]是使用一个人的探测器,并对每一个检测执行一个人的姿态估计。这些自顶向下的方法直接利用了现有的单人姿态估计技术[17、31、18、28、29、7、30、5、6、20],但却遭受了早期承诺的影响:如果人探测器失败了——就像人们接近时容易发生的那样——就没有办法恢复。

此外,这些自顶向下方法的运行时间与人员数量成正比:对于每个检测,运行一个单人位姿估计器,人员越多,计算成本就越大。相反,自底向上的方法具有吸引力,因为它们提供了对早期承诺的健壮性,并且有潜力将运行时复杂性与映像中的人员数量分离开来。然而,自底向上的方法并不直接使用来自其他身体部位和其他人的全局上下文线索。实际上,以前的自底向上方法[22,11]并没有保留效率上的收益,因为最终的解析需要昂贵的全局推断。例如,Pishchulin et al.[22]的开创性工作提出了一种自底向上的方法,联合标记部分检测候选对象,并将其与个人关联。然而,在全连通图上求解整数线性规划问题是一个np难问题,平均处理时间是小时数量级。Insafutdinov等人在[22]的基础上构建了基于ResNet[10]和依赖图像的两两评分的更强大的部件探测器,并极大地改进了运行时,但该方法仍然需要几分钟的每幅图像,并限制了部件建议的数量。[11]中使用的成对表示很难精确回归,因此需要单独的逻辑回归。

在本文中,我们提出了一种有效的多人姿态估计方法,在多个公共基准测试中具有最先进的精度。 我们通过部分亲和力场(PAF)呈现关联分数的第一个自下而上的表示,PAF是一组2D矢量场,其编码肢体在图像域上的位置和取向。 我们证明同时推断这些自下而上的检测和关联表示足以很好地编码全局上下文,以允许贪婪的解析以一小部分计算成本获得高质量的结果。 我们公开发布了完全可重复性的代码,展示了第一个用于多人2D姿势检测的实时系统。

 

三、方法

采用VGG-19和PAF机制得到2D关节姿态定位。

图片先进行一个卷积神经网络(利用VGG19的前十层和fineturned),得到一些feature maps F,然后把这个feature maps 输入送到第一个阶段,每个阶段包含两个分支,第一个阶段中的分支1产生了a set of detection confidence maps S,分支2产生了a set of part affinity fields L.在第前一个阶段的基础上,第二个阶段的输入就是original images features F+前一个阶段的输出。以此循环。

这是两分支多阶段的结构图,每个分支都是一个迭代的预测架构。对于最终的结果每个分支各输出一个集合。检测部分(上面的分支)输出身体各部分位置信息的二维置信图集S,有J个置信图,每类关键点对应一个。连接部分(下面的分支)输出身体各部分亲和力矢量场L,有C个矢量场,每类肢体对应一个[ W1] 。具体流程如下图:

Confidence map 和 Part Associaton

1.分支1是产生S的网络ρ,输出一个S的集合S =(S 1 , S 2 , …, Sn) ,n表示人身上的第n个部位,如:脖子,对于S的每个元素都是一个图片大小的集合,S是对于人身体的属于每一个部位的概率为何。

2.分支2是产生L的网络φ,输出一个L的集合L = (L 1 , L 2 , …, Ln ), n表示人身体的第n个链接,如:脖子与胸部,对于L的每个元素都是一个图片大小*2的集合(L是向量场的集合,该集合每个元素将会是w×h×2的图像,即起点在一个 w×h 中,终点在一个 w×h,综合起来就是w×h×2),L是对于人身体的每一链接的单位向量表示。

为了更好的解释网络的运作,先解释label的设定:

对于S的label,有如上两个公式,其中(P为当前的预测图片locationp,p ∈ R2 , 这里写图片描述为对于第k个人第j个部位的位置,σ为一常量(为了不让太多非常小的数字压垮训练而设定,使用1e+2),),对于如上第一个公式的解释就是对于当前位置(x,y)与第k个人的第j个部位越近这个位置的分数越高(首先为每个人 k 生成个体置信图 。设 是图中第 k 个人第 j 个身体部分的准确位置。那么 在p∈ 中处在位置的值定义为(公式里面的内容)),然后第二个公式表示对K取max意思就是不在乎是哪一位的第j部位,找分最高的一个就好了。S这个集为confidence map。

对于L的label,首先解释第一个公式,对于当前的位置P,如果P在第k个人的第c个链接上,那么对于p这个位置的label就取这个链接的单位向量,否则就取0.第二个公式就是向量除模长求单位向量的公式,第三个公式就是在讨论p是否在这一链接c上的标准。

如果出现一个点p,同时存在于两个人的同一部位则取平均。

在测试中,我们通过在对应的 PAF上,沿着 连接候选部分位置的线段计算线积分,来测算候选部分探测的相关性。换句话说,我们通过候选肢体,来测量预测的PAF的准线,即那些可能能通过连接预测的身体部分来获得的线。特别的,对两个候选部分位置和,我们沿着线段对预测部分亲和域Lc进行取样,来测量它们联系的置信度:

对于这一部分的公式先看第二个,第二个简化一下不难看出u取0时,p(u)=dj1,这个公式的意义在于取不同的u让p点在dj1与dj2之间移动。然后看第一个公式,对u在0~1之间取线积分,或者取离散求和,对于j1与j2两个点之间取离散,如5个点,放入产生L的网络将会产生5个单位向量,这5个单位向量表示链接的趋势(在label中设定的),对于这五个单位向量分别与j1与j2之间做内积,如果这两个之间存在连接就期望趋近于最大的值为5。如此取一个最大E就是该链接的两点了。

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值