CVPR2023新作:3D人体姿态估计II

  1. Title: 3D Human Pose Estimation With Spatio-Temporal Criss-Cross Attention

  2. Affiliation: Hefei University of Technology

  3. Authors: Zhenhua Tang, Zhaofan Qiu, Yanbin Hao, Richang Hong, Ting Yao

  4. Keywords: 3D human pose estimation, spatio-temporal criss-cross attention, transformer-based solutions, structure-enhanced positional embedding

  5. Summary:

  • (1): 该文章的研究背景是3D人体姿态估计。该领域在计算机视觉领域中引起了大量的研究关注,适用于许多应用场景,如人机交互、虚拟现实和运动预测等。

  • (2): 过去的方法通常采用二阶段管道,其中第一阶段使用2D人体姿态检测器提取2D关键点,第二阶段将2D坐标升级到3D空间,但是这种方法在处理过程中缺乏深度先验且存在歧义问题。新方法则是利用transformer结构,但是计算当中会存在大小阶次的问题,特别是在视频序列中,需要跨越整个视频环境。新方法提出了一个Spatio-Temporal Criss-cross attention的块,通过对空间和时间分别进行注意力操作并将它们进行连接,以模拟在同一帧中的关节间交互和在同一轨迹中的关节间交互。以此为基础,提出了一个新的Structure-enhanced Positional Embedding方法。两种方法的实验结果显示,在Human3.6M和MPI-INF-3DHP benchmarks中都有优越的表现。

  • (3): 该论文提出的方法是利用transformer结构进行空间和时间拆分,提出了一个新的Spatio-Temporal Criss-cross attention的块和一个新的Structure-enhanced Positional Embedding (SPE)方法,结合多个Spatio-Temporal Criss-cross attention的块构成了STCFormer。

  • (4): 该方法在3D人体姿态估计的任务上,在Human3.6M数据集上实现了40.5mm P1 error的表现,是迄今为止最好的表现。这个结果可以支持他们的研究目标。

  1. Methods:
  • (1): 该文章提出了一个新的3D人体姿态估计的方法,称为STCFormer。该方法利用transformer结构对空间和时间进行拆分,并提出了一个新的Spatio-Temporal Criss-cross attention的块和一个新的Structure-enhanced Positional Embedding (SPE)方法。在视频序列中,所提出的方法是基于Spatio-Temporal Criss-cross attention,可以模拟同一帧中和同一轨迹中关节之间的交互。SPE则可以将空间和时间信息编码为结构增强的位置嵌入。STCFormer基于多个Spatio-Temporal Criss-cross Attention的块搭建而成,实现了3D人体姿态估计任务的优异性能,表现优于其他已经发表的方法。

  • (2): 本文方法的优点在于能够利用transformer结构对空间和时间进行拆分,并能够模拟帧内和轨迹内之间的关节交互,在处理动态3D人体姿态估计时具有优势。此外,该方法引入了结构增强的位置嵌入,可以更好地建模人体姿态的结构信息。

  • (3): 实验部分使用了Human3.6M和MPI-INF-3DHP两个数据集与其他方法进行比较,证明了该方法的有效性和优越性。在Human3.6M数据集上,STCFormer实现了40.5mm P1 error的表现,是迄今为止最好的表现。

  • (4): 该文章的方法对于解决计算机视觉领域中3D人体姿态估计的问题具有重要的意义,并且可以为人机交互、虚拟现实和运动预测等领域的应用提供支持。

  1. Conclusion:
  • (1): 该篇文章提出的方法对于解决计算机视觉领域中3D人体姿态估计的问题具有重要的意义,并且可以为人机交互、虚拟现实和运动预测等领域的应用提供支持。

  • (2): 创新点:文章提出了一种新的Spatio-Temporal Criss-cross Transformer (STCFormer)方法,将transformer结构应用于3D人体姿态估计,并且引入了新的Spatio-Temporal Criss-cross attention块和Structure-enhanced Positional Embedding (SPE)方法。性能方面:在Human3.6M数据集上实现了40.5mm P1 error的表现,是迄今为止最好的表现。工作量方面:文章没有明确说明工作量,但是新提出的STCFormer具有较高的计算复杂度。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

upDiff

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值