单目3D多人姿态估计网络(整合自上而下和自下而上网络)


这篇文章发表在CVPR2021,目前官方还没有开源,作者提供的github网站为 https://github.com/3dpose/3D-Multi-Person-Pose

贡献

1、本文引入了一种新的双分支框架,其中自上而下的分支检测多个人,而自下而上的分支在其过程中包含了标准化的图像补丁。其框架从这两个分支中获益,同时也克服了它们的缺点。
2、本文的下扑网络采用多人姿态估计,可以有效地处理检测误差引起的人间遮挡和相互作用
3、本文将人类检测信息纳入自下而上的分支,以便更好地处理尺度变化,从而解决了现有的自下而上方法中的问题。
4、与现有的关注单人姿态的鉴别器不同,本文引入了一种新的鉴别器,它增强了在相机中心坐标中紧密成两交互的人类姿态的有效性。

实验结果

先来看一下本文提出的双分支整合方法的表现:
在这里插入图片描述
为了评估室内和室外场景中三维多人摄像机姿态估计的性能,本文对MupoTS-3D进行了评估,如表3所示。结果表明,本文以相机为中心的多人三维姿态估计比SOTA[1]上的性能好2.3%。本文还使用PCK进行以人为中心的三维姿态估计评估,其中本文比SOTA方法[2]高出了2.1%。对MupotS-3D的评估表明,本文的方法在以相机为中心和以人为中心的三维多人姿态估计方面都优于最先进的方法,因为本文提出的框架克服了自下自上和自上而下分支的弱点,同时受益于它们的优势。
[1] Jiefeng Li, Can Wang, Wentao Liu, Chen Qian, and Cewu Lu. Hmor: Hierarchical multi-person ordinal relations for monocular multi-person 3d pose estimation. In Proceedings of the European Conference on Computer Vision (ECCV), 2020.
[2] Jiahao Lin and Gim Hee Lee. Hdnet: Human depth estimation for multi-person camera-space localization. In Proceedings of the European Conference on Computer Vision (ECCV), 2020.
在这里插入图片描述
Human3.6M被广泛用于评估三维单人姿态估计。由于本文的方法侧重于处理人间遮挡和尺度变化,不期望本文的方法的性能明显好于SOTA方法。表5总结了对Human3.6M的定量评估,其中本文的方法与SOTA方法[1, 3]对以人为中心的三维人体姿态评估指标(即MPJPE和PA-MPJPE)相当。
[3] Nikos Kolotouros, Georgios Pavlakos, Michael J Black, and Kostas Daniilidis. Learning to reconstruct 3d human pose and shape via model-fitting in the loop. In Proceedings of the
IEEE International Conference on Computer Vision, pages 2252–2261, 2019.

整体框架

在这里插入图片描述
上图描述:如图中所示,本文提出的框架由三个主要部分来完成以多人摄像机为中心的三维人体姿态估计:自上而下的精细实例姿态估计网络,自下自上的全局感知姿态估计网络,以及将自上自下和自下而上分支的姿态估计与人机间姿态识别器集成的集成网络。此外,还提出了一种半监督训练过程来增强基于重投影一致性的三维位姿估计。
本文提出的方法包括三个组成部分:1) 一个自上而下的分支来估计细粒度的实例式三维姿态。2) 自下而上的分支,可生成全球感知以相机为中心的三维姿势。3) 一种集成网络,基于自上而下和自下而上的配对姿势生成最终估计,从而从两个分支中获益。
请注意,半监督学习部分是一种训练策略,因此它不包含在本图中。
后面将详细讲述Top-Down、Bottom-Up、Integration with Interaction-Aware Discriminator这三个部分。

3D多人姿态估计相关工作

  • Top-Down Network
    自上而下的单目三维人体姿态估计 (Top-Down Monocular 3D Human Pose Estimation)
    现有的自上而下的三维人体姿态估计方法通常将人体检测作为估计以人为中心的三维人体姿态的方法的重要组成部分。它们在单人评估数据集上展示了良好的性能,不幸的是,由于人间封闭或密切交互,多人场景中的性能会下降。此外,所产生的以人为中心的三维姿态不能用于多人场景,其中需要以相机为中心的三维姿态估计。自上而下的方法独立处理每个人,导致人们对附近其他人存在的认识不足。因此,他们在通常存在人间遮挡和密切互动的多人视频中表现不佳。Rogez等人,开发了一个姿态建议网络来生成边界框,然后为每个人单独进行姿态估计。最近,与以前以人为
  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值