NUS 联合 Sea AI Lab 发表 Multi-view Pose Transformer，完全端到端学习，超强可扩展性...

最新推荐文章于 2024-02-29 16:50:50 发布

我爱计算机视觉

最新推荐文章于 2024-02-29 16:50:50 发布

阅读量1.2k

点赞数 1

文章标签： python 机器学习人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/moxibingdao/article/details/121506704

版权

NUS 和 Sea AI Lab 在 NeurIPS 2021 发表的论文提出 Multi-view Pose Transformer，该模型直接从多视角图像回归多人三维姿态，具有15.8mm MPJPE的高精度，并展示了优秀的可扩展性。通过项目链接可查看论文和源代码。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

✎ 编者言

从多视角估计多人三维人体姿态是一个比较challenge的研究方向，目前的方法都采用了多阶段的模式，整个框架比较复杂。最近NUS联合Sea AI Lab在NeurIPS-2021上发表了一篇论文『Direct Multi-view Multi-person 3D Human Pose Estimation』，提出了一个简单的方法Multi-view Pose Transformer，直接从多视角图片回归多人三维姿态结果，在CMU panoptic数据集上达到15.8mm的MPJPE，简单高效，且良好的可扩展性。

详细信息如下：

论文链接：https://arxiv.org/pdf/2111.04076.pdf
项目链接：https://github.com/sail-sg/mvp
视频讲解：https://www.bilibili.com/video/BV1sL4y1v7wy/

摘要

多人3D姿态估计要求准确地估计场景中的每个人的三维关节点位置，具有广泛的应用场景，包括行为识别和监测、姿态跟踪、虚拟现实等等。

从多视角估计3D姿态可以有效克服普通单视角设定中的固有问题（自遮挡，他遮挡，深度模糊性、不适定性），从而实现更加准确的姿态估计。

目前基于多视角的多人三维姿态估计方法都是多阶段的，主要有两类方法。一类首先独立地对每个视角进行多人姿态检测，接着依靠一些几何约束进行多视角匹配，最后再将每个人的多视角姿态结果进行融合恢复成3D姿态。另一类首先对每个视角估计关节点heatmap，然后通过投影获得一个对应整体空间的关节点heat-cube，基于此搭建一个类似两阶段物体检测的框架，进行多人的空间位置proposal和对每个人的姿态预测。

这些方法都是首先基于单目进行2D预测，然后再进行跨视角融合，这样都会受到单视角遮挡的影响，可能导致error accumulation，而且框架更加复杂，不利于实用和拓展。那么，是否可以直接从多视角图片回归多人的3D姿态呢？这个想法很简单，但要同时完成多视角信息融合，多人姿态检测很困难。

来自新加坡国立大学（NUS）和新加坡Sea AI Lab的研究人员设计了一个基于transformer的模型，有效直接地融合多视角信息，同时进行多人3D关键点回归。

方法

这里作者受transformer启发，将每个关节点用一个可学习的input embedding建模，输入特别设计decoder

最低0.47元/天解锁文章

我爱计算机视觉

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
NUS 联合 Sea AI Lab 发表 Multi-view Pose Transformer，完全端到端学习，超强可扩展性...

关注公众号，发现CV技术之美✎编者言从多视角估计多人三维人体姿态是一个比较challenge的研究方向，目前的方法都采用了多阶段的模式，整个框架比较复杂。最近NUS联合Sea A...
复制链接

扫一扫