Single-Stage Multi-Person Pose Machines
ICCV 2019
paper :https://arxiv.org/pdf/1908.09220.pdf
不管是bottom-up还是top-down 人体姿态估计策略,都需要两步走。论文创新性的提出了single-stage。其实这个想法,我之前有过一闪而过。
论文提出了single-stage model : Single-stage multi-person Pose Machine (SPM),来简化和提高多人姿态估计的性能。为了实现这一目标,我们提出了一种新的结构化姿态表示(SPR),将人实例和身体关节位置表示相结合。为了更好地预测某些节点的长位移(long-range),SPR进一步扩展到分层表示(hierarchical representations)。
Structured pose representation (SPR)
SPR旨在统一人体实例位置信息和人体关节点的信息,提供一个单阶段的多人姿态估计解决方案。SPR引入一个辅助节点(auxiiliary joint)->the root joint : 来表示人体的位置。表示第 i 个人的root joint。那么第 i 个人的第 j 个节点的位置定义为
。论文使用的是人体的形心(centroid)作为root joint,
Hierarchical SPR
上图(c)存在long-range的joint displacement,神经网络对于此预测不尽人意。所以提出了分层SPR的概念。 因此,我们建议将长期位移分解成累积的短期位移,以进一步改进SPR。具体地,我们根据铰接运动学(articulated kinematics)的自由度和变形程度将根节点和体节点划分为四个层次。(root joint)->first (躯干关节包括脖子,肩膀和臀部)->second (头,肘部和膝盖)->third (手腕和脚踝)->fourth。然后通过相邻层次结构中节点间的近距离位移来识别节点位置。
Regression targets for root joint position
总所周知,回归confidence map比直接回归坐标更加准确。代表根节点置信图,
代表第i个人的根节点置信图。对于给定图片 I 中的位置(x,y)。
。
代表root joint的ground-truth。
是经验选择的高斯分布的方差,论文中设置为7。根关节置信度图Cr是所有人的峰值在单一map上的集合。在这里,我们选择取置信图的最大值,而不是取它们的平均值,以保持相邻峰值之间的差异。
Regression targets for body joint displacement
论文为每个关节构造了一个密集的位移图。表示关节j 。
表示 i 个人的关节 j。对于 image I 中的(x,y),
计算如下:
表示第 i 个人的 根节点的领域。
标准化因子,H和W是image I 的长和宽。
这里使用的平均,而不像根节点那种取最大值。where Mj is the number of non-zero vectors at position (x, y) across all persons。
Network architecthre
基于 hourglass network