RMPE: Regional Multi-person Pose Estimation 论文解读

paper title: RMPE: Regional Multi-person Pose Estimation
paper link: https://arxiv.org/pdf/1612.00137.pdf
project: https://www.mvig.org/research/alphapose.html
oral or demo video:https://www.youtube.com/watch?v=RHNdbEY5xn4
github: https://github.com/MVIG-SJTU/AlphaPose
conf & anthor: ICCV 17, Hao-Shu Fang et al.(SJTU)
arXiv submit v1: 2016.12

姿态估计系列:

主要内容
这篇文章主要介绍了一种two-stage的多人人体姿态估计方法。与通常的two-stage方法一致,第一阶段使用人体检测器检测出图像中的人,第二阶段使用单个人人体姿态估计(SPPE)模型进行人体关键点检测。
文章在two-stage的算法流程基础上,有三点主要变化:
(1) 在SPPE网络之间增加了一个Spatial Transformer Network(STN,关于STN可参考 Spatial Transformer Network)
对检测出的人体的区域做一个空间变换,并在SPPE之后进行一个反变换;设置了两个SPPE网络分支,一个是(1)中所述,另外一个主要用来对网络进行正则;
(2) 提出了一种参数化的Pose NMS方法去除冗余;
(3) 使用了一种Pose Guided Porposal Generate(PGPG)方法进行训练集扩增。

网络结构
RMPE的网络结构如下图所示:
RMPE framework
首先是一个人体检测网络产生人体proposal;然后是两个单人人体姿态估计网络分支,暂称之为主SPPE和辅SPPE,辅SPPE只在训练的时候用到,训练的时候使用PGPG产生proposal;之后是Pose NMS处理模块,最后得到姿态估计结果。下面就这几个部分作更详细一些的说明。

(1)SPPE
主SPPE是一个单人人体姿态估计网络,可以是Hourglass Network等网络。这里的特殊之处是在网络之前和之后分别添加了了一个STN)和SDTN,STN会对输入的图像进行一个空间变换(如仿射变换),然后经过SPPE进行人体关键点检测,检测完后再通过SDTN变换回原来的空间状态。STN中的localization network在训练的时候是有参数参与训练的,训练得到变换参数 θ \theta θ,而SDTN中则直接使用STN中的 θ \theta θ的反向变换即可。

(2)Parallel SPPE
parallel SPPE的模型结构与主SPPE一致,但是在训练过程中,模型中的参数都是冻结的,并不参与训练,推理的时候是不需要该分支的。另外这条分支使用的label是center-located,目的是让STN变换后的pose是处在图像中心的,以降低关键点检测的难度并提高准确性。这条分支对STN起到一个正则化的作用。
既然parallel SPPE的目的是反向传播center-located的误差,那么是不是可以直接在主SPPE的SDTN模块之前加一个center-located的回归损失?文章对这个问题作出了解释,如果在主SPPE分支上直接加一个损失,输入的坐标空间可label的坐标空间表示的不同,会降低原本的SPPE的姿态估计效果。

(3)PGPG(Pose Guided Proposal Generator)
在得到人体检测的bounding box之后,可以通过对bounding box平移缩放等操作扩增数据集,提高模型的性能。文章提出的PGPG是基于已知的pose label 和检测的bounding box,通过发现不同pose的bounding box和label box之间的一些位置关系的统计情况,为不同的pose设置“pose-guided”的不同的数据增强方式。
具体来说,不同的pose P P P的lable和检测的bbox的偏移 δ B \delta B δB的分布情况是不同的,如下图,可以找到这个分布 P ( δ B ∣ P ) P(\delta B|P) P(δBP)
pose-offset distribution
但是直接求分布 P ( δ B ∣ P ) P(\delta B|P) P(δBP)是比较困难的,文章中首先都所有ground truth pose进行归一化并使用k-means进行聚类,聚类中心使用atom pose。最后将atom pose的偏移 δ B \delta B δB建模成混合高斯分布。

(4)Parametric Pose NMS
人体检测会出现冗余的bbox,导致估计的人体姿态也有冗余,需要使用NMS消除冗余,文章提出了一种参数化的Pose NMS方法,通过检测的关键点的置信度和距离来衡量不同pose之间的距离,依此进行冗余消除,方法中使用的参数都是从数据中学习到的。
具体来说,对于第i和Pose P i P_i Pi, k i j k_i^j kij</

### 回答1: 实时多人二维姿态估计使用的是部件关联场技术。该技术利用深度学习网络对图像中的人体关键点进行检测和定位,并通过学习人体部位之间的关联性来提高姿态估计的准确性。在实时性方面,该技术利用高效的网络结构和并行计算技术,能够在处理多人图像时保持较高的处理速度和较低的延迟。 ### 回答2: 实时的多人2D姿态估计是指在照片或视频中同时检测多个人的姿态并实时反馈结果。这个任务主要是依赖计算机视觉领域的人体关键点检测技术。而Part Affinity Fields(PAF)是现在最常用的一种检测方法。 PAF可以理解为是人体姿态中的“骨架”,它在这里指的是需要将骨骼节点间的关系一同考虑进去来提高精度的设计。每个PAF都对应着一对关联的节点,例如手臂这一关节对应的PAF就是肩膀和手腕两个关键点中间的向量场。PAF能够将关键点之间的联系编码为一个向量场,并将它们的图像位置和方向作为通道特征,这样就可以通过深度卷积网络获得节点的连接信息。 对于多人2D姿态估计任务,PAF可以自动推断出人体的椭圆形状,使得不同人的节点互相不干扰,能够高效地分离不同人体之间的关键点信息,保证检测精度。 总体而言,实时的多人2D姿态估计技术是计算机视觉研究领域中一个非常重要的方向。通过Part Affinity Fields技术,可以实现对人体姿态的快速准确检测和分析,并具有广泛的应用前景,比如拍摄跳舞类视频、体育比赛等。未来,该领域还将会不断提高研究和开发技术,提高其在实际场景中的使用效果,为人们的生产和生活提供更多更好的便利。 ### 回答3: 在计算机视觉领域,人体姿态估计一直是一个十分重要的研究方向。现在,研究者们正在致力于开发实时多人二维姿态估计方法,本文将介绍一种方法——part affinity fields。 Part affinity fields是指身体部位之间存在的空间关系矩阵。多人姿态估计就是先将图像中的每一个像素与人体相关的身体部件联系起来,然后再利用network output将这些点连接起来形成人体姿态。part affinity fields的基本思想是采用CNN对每一个像素做预测,以定位人体骨架上的每一个连接点。 主要步骤: 1.生成部件置信图:对于输入的图像,通过CNN估计每个像素是否为其中每个身体部位的一部分,这个图叫做部件置信图(Part Confidence Maps),可以通过训练数据集来检测出身体部位的位置。 2.生成连接部件映射图:对于预测出来的部件置信图,我们可以通过预测到的部件之间的关系来学习生成连接映射图(Part Affinity Fields),即学习两个不同身体部件之间的关系(connectivity),这个关系是一个形状为“c×2×h×w”的4维张量。在测试阶段,对于输入图像中的每个像素,都会有其对应到一个连接部件映射图的位置。 3.生成姿态结果:最后,我们将生成的部件置信图和连接部件映射图进行联合,把已确定的部件通过连接映射图装配起来并组合成人体的姿态结果。 这种方法最大的好处就是实现了实时多人姿态估计,不需要预设一个特定数量的人数。同时,在处理不同人的关键点时,以前的方法通常是对每个人都单独进行估计,而这个方法则对所有人的关键点一起进行估计,能够更好地处理人际交互。 总之,通过深度学习和部件置信图与连接映射图等技术手段的利用,Part Affinity Fields在解决实时多人二维姿态估计时具有很大的潜力。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值