单目3D多人姿态估计网络（整合自上而下和自下而上网络）

最新推荐文章于 2022-05-20 14:10:33 发布

fadedtj

最新推荐文章于 2022-05-20 14:10:33 发布

阅读量2.6k

点赞数 3

分类专栏：姿态估计 Pose Estimation 文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/m0_50811752/article/details/116190562

版权

Monocular 3D Multi-Person Pose Estimation by Intergrating Top-Down and Bottom-Up Networks 论文解读

贡献
实验结果
整体框架
3D多人姿态估计相关工作
Network Structure
Top-Down Network
Bottom-Up Network
Integration with Interaction-Aware Discriminator
Inter-Person Discriminator
实验细节
消融术研究

这篇文章发表在CVPR2021，目前官方还没有开源，作者提供的github网站为 https://github.com/3dpose/3D-Multi-Person-Pose

贡献

1、本文引入了一种新的双分支框架，其中自上而下的分支检测多个人，而自下而上的分支在其过程中包含了标准化的图像补丁。其框架从这两个分支中获益，同时也克服了它们的缺点。
2、本文的下扑网络采用多人姿态估计，可以有效地处理检测误差引起的人间遮挡和相互作用。
3、本文将人类检测信息纳入自下而上的分支，以便更好地处理尺度变化，从而解决了现有的自下而上方法中的问题。
4、与现有的关注单人姿态的鉴别器不同，本文引入了一种新的鉴别器，它增强了在相机中心坐标中紧密成两交互的人类姿态的有效性。

实验结果

先来看一下本文提出的双分支整合方法的表现：
在这里插入图片描述
为了评估室内和室外场景中三维多人摄像机姿态估计的性能，本文对MupoTS-3D进行了评估，如表3所示。结果表明，本文以相机为中心的多人三维姿态估计比SOTA[1]上的性能好2.3%。本文还使用PCK进行以人为中心的三维姿态估计评估，其中本文比SOTA方法[2]高出了2.1%。对MupotS-3D的评估表明，本文的方法在以相机为中心和以人为中心的三维多人姿态估计方面都优于最先进的方法，因为本文提出的框架克服了自下自上和自上而下分支的弱点，同时受益于它们的优势。
[1] Jiefeng Li, Can Wang, Wentao Liu, Chen Qian, and Cewu Lu. Hmor: Hierarchical multi-person ordinal relations for monocular multi-person 3d pose estimation. In Proceedings of the European Conference on Computer Vision (ECCV), 2020.
[2] Jiahao Lin and Gim Hee Lee. Hdnet: Human depth estimation for multi-person camera-space localization. In Proceedings of the European Conference on Computer Vision (ECCV), 2020.
在这里插入图片描述
Human3.6M被广泛用于评估三维单人姿态估计。由于本文的方法侧重于处理人间遮挡和尺度变化，不期望本文的方法的性能明显好于SOTA方法。表5总结了对Human3.6M的定量评估，其中本文的方法与SOTA方法[1, 3]对以人为中心的三维人体姿态评估指标（即MPJPE和PA-MPJPE）相当。
[3] Nikos Kolotouros, Georgios Pavlakos, Michael J Black, and Kostas Daniilidis. Learning to reconstruct 3d human pose and shape via model-fitting in the loop. In Proceedings of the
IEEE International Conference on Computer Vision, pages 2252–2261, 2019.

整体框架

在这里插入图片描述
上图描述：如图中所示，本文提出的框架由三个主要部分来完成以多人摄像机为中心的三维人体姿态估计：自上而下的精细实例姿态估计网络，自下自上的全局感知姿态估计网络，以及将自上自下和自下而上分支的姿态估计与人机间姿态识别器集成的集成网络。此外，还提出了一种半监督训练过程来增强基于重投影一致性的三维位姿估计。
本文提出的方法包括三个组成部分：1) 一个自上而下的分支来估计细粒度的实例式三维姿态。2) 自下而上的分支，可生成全球感知以相机为中心的三维姿势。3) 一种集成网络，基于自上而下和自下而上的配对姿势生成最终估计，从而从两个分支中获益。
请注意，半监督学习部分是一种训练策略，因此它不包含在本图中。
后面将详细讲述Top-Down、Bottom-Up、Integration with Interaction-Aware Discriminator这三个部分。

3D多人姿态估计相关工作

Top-Down Network
自上而下的单目三维人体姿态估计 (Top-Down Monocular 3D Human Pose Estimation)
现有的自上而下的三维人体姿态估计方法通常将人体检测作为估计以人为中心的三维人体姿态的方法的重要组成部分。它们在单人评估数据集上展示了良好的性能，不幸的是，由于人间封闭或密切交互，多人场景中的性能会下降。此外，所产生的以人为中心的三维姿态不能用于多人场景，其中需要以相机为中心的三维姿态估计。自上而下的方法独立处理每个人，导致人们对附近其他人存在的认识不足。因此，他们在通常存在人间遮挡和密切互动的多人视频中表现不佳。Rogez等人，开发了一个姿态建议网络来生成边界框，然后为每个人单独进行姿态估计。最近，与以前以人为