MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation

最新推荐文章于 2024-10-29 16:28:18 发布

王知为

最新推荐文章于 2024-10-29 16:28:18 发布

阅读量786

点赞数 8

文章标签： transformer 3d 深度学习

本文链接：https://blog.csdn.net/oneway3124/article/details/136080743

版权

MHFormer：用于3D人体姿势估计的多假设Transformer

https://github.com/Vegetebird/MHFormer

从单目视频中估计3D人体姿势是一项具有挑战性的任务，主要是由于深度模糊和自遮挡引起的。大多数现有的研究试图通过利用空间和时间关系来解决这两个问题。然而，这些研究忽视了这是一个逆问题，存在多个可行的解决方案（即假设）。为了克服这一限制，我们提出了一个多假设变压器（MHFormer），它学习多个可行姿势假设的时空表示。为了有效地建模多假设之间的依赖关系并在假设特征之间建立强关系，任务被分解为三个阶段：（i）生成多个初始假设表示；（ii）建模自假设通信，将多个假设合并为单一的收敛表示，然后将其分成几个分散的假设；（iii）学习跨假设通信，聚合多假设特征以合成最终的3D姿势。通过上述过程，最终表示得到增强，合成的姿势更加准确。大量实验证明，MHFormer在两个具有挑战性的数据集Human3.6M和MPI-INF-3DHP上取得了最先进的结果。在Human3.6M上，其性能不仅超过了以前最佳结果，而且还提高了3%。代码和模型可在https://github.com/Vegetebird/MHFormer上获得。

在这里插入图片描述
图1。给定一个包含遮挡身体部位（右臂和肘部）的帧，最近的一种先进的3D人体姿势估计方法PoseFormer [46] 输出了一个与2D输入不一致的单一解决方案。相比之下，我们的MHFormer生成了多个合理的假设（不同颜色），与2D证据一致，最终合成了一个更准确的3D姿势（绿色）。为了方便比较，输入帧以一种新的视角显示。

在这里插入图片描述
图2。提出的MHFormer通过构建一个三阶段框架，首先生成多个初始表示，然后以独立和相互的方式进行通信，合成更精确的估计。为了简单起见，我们仅展示了以单帧2D姿势作为输入的过程。

在这里插入图片描述
图3。(a) 提出的多假设Transformer（MHFormer）的概述。 (b) 多假设生成（MHG）模块提取每帧内人体关节的固有结构信息，并生成多个假设表示。N是输入帧的数量，T是矩阵转置。© 自假设细化（SHR）模块用于细化单一假设特征。 (d) 在SHR后的交叉假设交互（CHI）模块使多假设特征之间发生交互。
在这里插入图片描述
图4。左：多头自注意力（MSA）。右：多头交叉注意力（MCA）。