姿态检查整理--07-RMPE: Regional Multi-Person Pose Estimation

RMPE: Regional Multi-Person Pose Estimation

多人姿态估计top-down方法,多人情况下小的定位与识别的错误难以避免,这篇文章提出的方法是regional multiperson pose estimation(RMPE),包括三个部分: Symmetric Spatial Transformer Network (SSTN), Parametric Pose Non-Maximum Suppression (NMS), and Pose-Guided Proposals Generator (PGPG). 空间转换网络,身体部件位置获取,姿态候选发生器。


总体框架:

多人检测比单人检查要复杂,现在的网络一般是分成两个阶段。或是先检测个体再检测身体部件,或是先检测身体部件,然后再检测个体。两种方法各有利弊,先检测个体严重依赖这个检测个体的结果。先检测部件呢,组合这些部件的方法当人靠的比较近的时候有点不靠谱,而且这种方法目前无法利用全局特征去发现身体部件。

目前的人体检测方法会产生两个主要问题:定位错误,以及多余的检测结果,尤其是SPPE (singal person pose estimation)。这篇文章就是为解决这个问题而来的,提出了RMPE方法。包括了三个模块:Symmetric Spatial Transformer Network (SSTN)用于在不准确的bounding box下仍能提取准确的单个人的范围,这是组合到SPPE里面的。NMS是处理多余的候选框的,它是采用了新的距离量测的方法来计算姿态的相似度,且是数据驱动的,不是预先设定的。PGPG用于增多训练样本。

领域的小历史:

SPPE{单人姿态检测}:

传统方法使用图形结构, pictorial structure models比如 tree models [37, 30, 40, 36] 以及 random forest models [31, 8] 就用在了人体姿态检测上。图形的模型Graph based models 比如random field models [20] 还有dependency graph models [14]也有广泛应用 [13, 32, 21, 26]。不得不提的是,random field models在神经网络中也有改型,{论文Multi-Context Attention for Human Pose Estimation}。
神经网络的人体姿态检查的代表性作品有DeepPose (Toshev et al) [34], DNN based models [24, 11] and various CNN based models [19, 33, 23, 4, 38]

多人检测:

bottom-up方法(这篇文章中称为part based framework):
代表性的有[7,12,35,27,17]。[7]使用图形模型能提取被遮挡的人,[12]使用k-poselets检测人以及预测身体部件的位置(有点类似与K-means,只是需要means的特征空间是身体部件),[27]提出的是Deepcut,经典两步走,part detect & assemble,还有[15]提出的基于ResNet的模型,[17]提出的优化策略deepercut。(但就网络来说,有FCN全连接网络,ResNet,以及Hourglass)
top-down方法(这篇文章中称为 two-step framework):
多人的2017年之前的工作比如deepercut,基于Faser Rcnn的方法。

RMPE

这里写图片描述
包含的步骤如图所示,STN和2D仿射变换[18],SDTN是STN的反过程。这两个过程作者当然有给出了正反变换。变换的目的是为了提取高精度的人体范围。然后,STN后面加了特别的结构,一个并行的SPPE,这个结构不是为了姿态而设计的,是为了反馈得到准确的位置center-located。然后这个过程之后就是普通的SPPE单人姿态检查了,单人姿态检测中会得到产生多余候选框的问题,这篇论文也给出了一个解决方案,parametric pose NMS。
那NMS是怎么回事:从多余的候选框中选择参考,置信度最高的作为参考。和参考相似的就被消除,elimination criterion,直到只剩下一个候选框。‘相似’这篇给出了自己的定义pose distance:a soft matching function得到姿态和关节大致的(softly)匹配度,最后的距离公式还加入了身体部件的距离。

优化:

本来这个没什么,因为是具体的框架设计的具体的结构(eliminate criterion)而设计的优化策略,即它只服务于这一个结构,而非模块化的东西。但这一块透露出作者对神经网络深刻 理解,尤其是“怎么将普通算法设置成网络的形式”。原文摘录如下:
这里写图片描述

后面高能:

在如何实施上,作者放大招了:他将人体姿态设置为原子姿态(没什么新意),然后将躯干缩放到相同长度(有点意思喽,同是今年2017年的论文有人做过pose normalization),然后根据调整后的姿态做聚类(同为今年的论文有人做过基于模式的人类姿态估计PAF),然后区分处理不同特征。不过,说到姿态的聚类,早在2014年就有人做过[Articulated pose estimation by a graphical model with image dependent pairwise relations. In: Advances in Neural Information Processing Systems (NIPS).]根据这个时间点来看,当时可能不会太好,还要去看看。


不知作者是有心还是无意,这种大招放到一个附属地位来写,反倒是他的网络,仅做了不惊喜的更新(相当于扩展了Hourglass到多人场景,迫不得已加的附件)。当然,还有一种可能,作者可能完全没意识到这点的意义,或许这儿有个机会。实际上,他扩展很少,是将PAF [ Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields(发表于2017年4月14)] “翻译”到了两个阶段,除此之外可以认为基本一致。所以,扩展这两个阶段,完全可以生成更强的多人识别网络,这将是一种和Hourglass同一级别的基础框架的结构。

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 实时多人二维姿态估计使用的是部件关联场技术。该技术利用深度学习网络对图像中的人体关键点进行检测和定位,并通过学习人体部位之间的关联性来提高姿态估计的准确性。在实时性方面,该技术利用高效的网络结构和并行计算技术,能够在处理多人图像时保持较高的处理速度和较低的延迟。 ### 回答2: 实时的多人2D姿态估计是指在照片或视频中同时检测多个人的姿态并实时反馈结果。这个任务主要是依赖计算机视觉领域的人体关键点检测技术。而Part Affinity Fields(PAF)是现在最常用的一种检测方法。 PAF可以理解为是人体姿态中的“骨架”,它在这里指的是需要将骨骼节点间的关系一同考虑进去来提高精度的设计。每个PAF都对应着一对关联的节点,例如手臂这一关节对应的PAF就是肩膀和手腕两个关键点中间的向量场。PAF能够将关键点之间的联系编码为一个向量场,并将它们的图像位置和方向作为通道特征,这样就可以通过深度卷积网络获得节点的连接信息。 对于多人2D姿态估计任务,PAF可以自动推断出人体的椭圆形状,使得不同人的节点互相不干扰,能够高效地分离不同人体之间的关键点信息,保证检测精度。 总体而言,实时的多人2D姿态估计技术是计算机视觉研究领域中一个非常重要的方向。通过Part Affinity Fields技术,可以实现对人体姿态的快速准确检测和分析,并具有广泛的应用前景,比如拍摄跳舞类视频、体育比赛等。未来,该领域还将会不断提高研究和开发技术,提高其在实际场景中的使用效果,为人们的生产和生活提供更多更好的便利。 ### 回答3: 在计算机视觉领域,人体姿态估计一直是一个十分重要的研究方向。现在,研究者们正在致力于开发实时多人二维姿态估计方法,本文将介绍一种方法——part affinity fields。 Part affinity fields是指身体部位之间存在的空间关系矩阵。多人姿态估计就是先将图像中的每一个像素与人体相关的身体部件联系起来,然后再利用network output将这些点连接起来形成人体姿态。part affinity fields的基本思想是采用CNN对每一个像素做预测,以定位人体骨架上的每一个连接点。 主要步骤: 1.生成部件置信图:对于输入的图像,通过CNN估计每个像素是否为其中每个身体部位的一部分,这个图叫做部件置信图(Part Confidence Maps),可以通过训练数据集来检测出身体部位的位置。 2.生成连接部件映射图:对于预测出来的部件置信图,我们可以通过预测到的部件之间的关系来学习生成连接映射图(Part Affinity Fields),即学习两个不同身体部件之间的关系(connectivity),这个关系是一个形状为“c×2×h×w”的4维张量。在测试阶段,对于输入图像中的每个像素,都会有其对应到一个连接部件映射图的位置。 3.生成姿态结果:最后,我们将生成的部件置信图和连接部件映射图进行联合,把已确定的部件通过连接映射图装配起来并组合成人体的姿态结果。 这种方法最大的好处就是实现了实时多人姿态估计,不需要预设一个特定数量的人数。同时,在处理不同人的关键点时,以前的方法通常是对每个人都单独进行估计,而这个方法则对所有人的关键点一起进行估计,能够更好地处理人际交互。 总之,通过深度学习和部件置信图与连接映射图等技术手段的利用,Part Affinity Fields在解决实时多人二维姿态估计时具有很大的潜力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值