NUS 联合 Sea AI Lab 发表 Multi-view Pose Transformer,完全端到端学习,超强可扩展性...

NUS 和 Sea AI Lab 在 NeurIPS 2021 发表的论文提出 Multi-view Pose Transformer,该模型直接从多视角图像回归多人三维姿态,具有15.8mm MPJPE的高精度,并展示了优秀的可扩展性。通过项目链接可查看论文和源代码。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

✎ 编 者 言 

从多视角估计多人三维人体姿态是一个比较challenge的研究方向,目前的方法都采用了多阶段的模式,整个框架比较复杂。最近NUS联合Sea AI Lab在NeurIPS-2021上发表了一篇论文『Direct Multi-view Multi-person 3D Human Pose Estimation』,提出了一个简单的方法Multi-view Pose Transformer,直接从多视角图片回归多人三维姿态结果,在CMU panoptic数据集上达到15.8mm的MPJPE,简单高效,且良好的可扩展性。

详细信息如下:

504978b1918089df7b61518efc3e5f1f.png

  • 论文链接:https://arxiv.org/pdf/2111.04076.pdf

  • 项目链接:https://github.com/sail-sg/mvp

  • 视频讲解:https://www.bilibili.com/video/BV1sL4y1v7wy/

      01      

摘要

多人3D姿态估计要求准确地估计场景中的每个人的三维关节点位置,具有广泛的应用场景,包括行为识别和监测、姿态跟踪、虚拟现实等等。

从多视角估计3D姿态可以有效克服普通单视角设定中的固有问题(自遮挡,他遮挡,深度模糊性、不适定性),从而实现更加准确的姿态估计。

目前基于多视角的多人三维姿态估计方法都是多阶段的,主要有两类方法。一类首先独立地对每个视角进行多人姿态检测,接着依靠一些几何约束进行多视角匹配,最后再将每个人的多视角姿态结果进行融合恢复成3D姿态。另一类首先对每个视角估计关节点heatmap,然后通过投影获得一个对应整体空间的关节点heat-cube,基于此搭建一个类似两阶段物体检测的框架,进行多人的空间位置proposal和对每个人的姿态预测。

这些方法都是首先基于单目进行2D预测,然后再进行跨视角融合,这样都会受到单视角遮挡的影响,可能导致error accumulation,而且框架更加复杂,不利于实用和拓展。那么,是否可以直接从多视角图片回归多人的3D姿态呢?这个想法很简单,但要同时完成多视角信息融合,多人姿态检测很困难。

来自新加坡国立大学(NUS)和新加坡Sea AI Lab的研究人员设计了一个基于transformer的模型,有效直接地融合多视角信息,同时进行多人3D关键点回归。

      02      

方法

这里作者受transformer启发,将每个关节点用一个可学习的input embedding建模,输入特别设计decoder

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值