论文笔记-End-to-End Human Pose and Mesh Reconstruction with Transformers（使用TransFormer进行端到端的人体姿态估计和网格重建）

最新推荐文章于 2024-06-10 09:47:26 发布

me盘子

最新推荐文章于 2024-06-10 09:47:26 发布

阅读量2.6k

点赞数 3

分类专栏：计算机视觉-人体姿态重建文章标签：机器学习计算机视觉深度学习 transformer

计算机视觉-人体姿态重建专栏收录该内容

1 篇文章 0 订阅

订阅专栏

代码和预训练模型： https://github.com/microsoft/MeshTransformer

摘要：文章提出MEsh TRansfOrmer（METRO）方法，用于从单个图像重建三维人体姿态和网格顶点。其中用到了注意力编码器来联合建模顶点-顶点和顶点-关节的交互，并同时输出三维关节坐标和网格顶点。

介绍：复杂的关节运动和咬合带来了很多挑战。在这方面的工作分为两类①使用参数模型并学习预测形状和姿态系数（SMPL，用到了β和θ作为输入参数，其中β代表是个人体高矮胖瘦、头身比等比例的10个参数，θ是代表人体整体运动位姿和24个关节相对角度的75个参数）②不使用任何参数模型（要么使用图形卷积网络来模拟邻域顶点间的相互作用，要么使用1D热图来回归顶点坐标）

METRO一种具有渐进降维的多层Transformer编码器，如上图所示，METRO学习发现身体关节和网格顶点之间的短距离和长距离交互，这有助于更好地重建具有大姿态变化和遮挡的三维人体形状。

所以本文提出了一个简单而有效框架来模拟全局顶点间的相互作用。这个框架的主要成分是TransFormer，并且在多个公共数据集上的实验结果表明，METRO在学习顶点-顶点和顶点-关节交互方面是有效的，因此在人体网格重建方面要比以前的工作优越得多。METRO还是一个通用框架，可以很容易地应用于预测不同的3D网格。总而言之：1、我们引入了一种新的基于transformer的方法，称为METRO，用于从单个图像重建三维人体姿态和网格。2、我们设计了带多层transformer编码器的掩码向量建模目标，对顶点-顶点和顶点-关节相互作用进行建模，以实现更好的重建。3、METRO在大规模基准Human3.6M和具有挑战性的3DPW数据集上实现了全新的一流性能。4、METRO是一个通用框架，可以轻松实现预测不同类型的3D网格。

相关工作：Attentions and Transformers Transformers使用多头自关注进行高效训练和推理，实现了高度并行化，并在大规模语言建模中实现了卓越的性能。在本次研究中，提出了一个多层transformer架构，逐步降维，回归关节和顶点的三维坐标。

方法：框架包括两个模型（CNN和多层transformer编码器）。首先，CNN从输入图像中提取特征向量；然后，多层Transformer编码器将其特征向量作为输入，并行输出人体关节和网格顶点的三维坐标。

首先详细介绍模型中的CNN:卷积网络进行特征提取（最后一个隐藏层提取特征向量X，通常是2048维，然后输入到回归任务的transformer中）并且在实验中发现高分辨率的图像特征有利于回归人体关节和网格顶点的三维坐标。

其次介绍具有渐进降维的多层transformer编码器：如图所示，平常应用的架构不适用，需要构建新的具有渐进降维的transformer架构。图中通过多个编码器，使用线性投影降低维数，以交替方式进行自我注意和降维。输入是身体关节和网格顶点查询（使用人体网络模板来保存位置信息，这样就形成了关节查询和网格顶点查询），最终输出向量是关节和网格顶点的三维坐标。

然后介绍了MVM掩蔽向量建模：MVM强制转换器通过考虑其他相关顶点和关节来回归三维坐标，而不考虑它们的距离和网格拓扑。这有助于关节和顶点之间的短距离和长距离交互，从而更好地进行人体建模。最后介绍了训练用到的Loss、实验详情用到粗网络。

第四部分介绍了实验结果（数据集的选择、消融实验以及评估指标【平均每关节位置误差、重建误差、平均每伏误差】、以及主要结果。

后面就是消融研究和结论了，不再多说。

具体论文引用（链接找不到了，直接搜论文名字）：End-to-End Human Pose and Mesh Reconstruction with Transformers
Kevin Lin Lijuan Wang Zicheng Liu
Microsoft
{keli, lijuanw, zliu}@microsoft.com

致谢！！！