MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation

MHFormer:用于3D人体姿势估计的多假设Transformer

https://github.com/Vegetebird/MHFormer

从单目视频中估计3D人体姿势是一项具有挑战性的任务,主要是由于深度模糊和自遮挡引起的。大多数现有的研究试图通过利用空间和时间关系来解决这两个问题。然而,这些研究忽视了这是一个逆问题,存在多个可行的解决方案(即假设)。为了克服这一限制,我们提出了一个多假设变压器(MHFormer),它学习多个可行姿势假设的时空表示。为了有效地建模多假设之间的依赖关系并在假设特征之间建立强关系,任务被分解为三个阶段:(i)生成多个初始假设表示;(ii)建模自假设通信,将多个假设合并为单一的收敛表示,然后将其分成几个分散的假设;(iii)学习跨假设通信,聚合多假设特征以合成最终的3D姿势。通过上述过程,最终表示得到增强,合成的姿势更加准确。大量实验证明,MHFormer在两个具有挑战性的数据集Human3.6M和MPI-INF-3DHP上取得了最先进的结果。在Human3.6M上,其性能不仅超过了以前最佳结果,而且还提高了3%。代码和模型可在https://github.com/Vegetebird/MHFormer上获得。

在这里插入图片描述
图1。给定一个包含遮挡身体部位(右臂和肘部)的帧,最近的一种先进的3D人体姿势估计方法PoseFormer [46] 输出了一个与2D输入不一致的单一解决方案。相比之下,我们的MHFormer生成了多个合理的假设(不同颜色),与2D证据一致,最终合成了一个更准确的3D姿势(绿色)。为了方便比较,输入帧以一种新的视角显示。

在这里插入图片描述
图2。提出的MHFormer通过构建一个三阶段框架,首先生成多个初始表示,然后以独立和相互的方式进行通信,合成更精确的估计。为了简单起见,我们仅展示了以单帧2D姿势作为输入的过程。

在这里插入图片描述
图3。(a) 提出的多假设Transformer(MHFormer)的概述。 (b) 多假设生成(MHG)模块提取每帧内人体关节的固有结构信息,并生成多个假设表示。N是输入帧的数量,T是矩阵转置。© 自假设细化(SHR)模块用于细化单一假设特征。 (d) 在SHR后的交叉假设交互(CHI)模块使多假设特征之间发生交互。
在这里插入图片描述
图4。左:多头自注意力(MSA)。右:多头交叉注意力(MCA)。

在这里插入图片描述
图5。在Human3.6M数据集上对比了所提方法(MHFormer)、基准方法和先前的最先进方法(PoseFormer)[46]的定性比较。错误的估计由黄色箭头突出显示。

在这里插入图片描述
图6。由MHFormer生成的多样化的3D姿势假设。为了方便说明,我们使用颜色对假设进行编码以显示它们之间的差异。绿色的3D姿势对应于我们方法最终合成的估计。

  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知为

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值