MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation.
文章目录
摘要
提示:这里可以添加本文要记录的大概内容:
因为深度信息缺乏和自我遮挡问题,从单目视频估计3D人体姿态是一个非常有挑战的工作。现存的大多数工作都是通过挖掘时空关系来解决上述问题。然而,这些工作都忽略了一个很重要的问题,这个问题是一个多个可行解(即假设)的逆问题。为了解决这些问题,本文提出了一个Multi-Hypothesis Transformer方法,该方法学习了多个可靠的姿态假设的时空表示,为了有效地建模多假设依赖关系,并在假设的特征之间建立强关系,任务被分解为三个阶段:(i)生成多个初始假设表征;(ii)建立自我假设通信模型,将多个假设合并为一个单一的聚合表征,然后将其划分为多个不同的假设;(iii)学习跨假设通信,并聚合多假设特征,合成最终的3D姿势。通过上述过程,最终的表征得到了增强,合成的姿势更精确。实验在两个具有挑战性的数据集进行:Human3.6M和MPI-INF-3DHP。作者已经把代码公开,链接地址为:https://github.com/Vegetebird/MHFormer.
一、Introduction
基于单目视觉的3D 人体姿态估计&#