CVPR2023新作：3D人体姿态估计II

最新推荐文章于 2024-04-23 19:22:29 发布

upDiff

最新推荐文章于 2024-04-23 19:22:29 发布

阅读量952

点赞数 2

文章标签：计算机视觉深度学习人工智能神经网络

未经授权，禁止转载，如需转载请私信

本文链接：https://blog.csdn.net/dlhlSC/article/details/131885388

版权

Title: 3D Human Pose Estimation With Spatio-Temporal Criss-Cross Attention
Affiliation: Hefei University of Technology
Authors: Zhenhua Tang, Zhaofan Qiu, Yanbin Hao, Richang Hong, Ting Yao
Keywords: 3D human pose estimation, spatio-temporal criss-cross attention, transformer-based solutions, structure-enhanced positional embedding
Summary:

(1): 该文章的研究背景是3D人体姿态估计。该领域在计算机视觉领域中引起了大量的研究关注，适用于许多应用场景，如人机交互、虚拟现实和运动预测等。
(2): 过去的方法通常采用二阶段管道，其中第一阶段使用2D人体姿态检测器提取2D关键点，第二阶段将2D坐标升级到3D空间，但是这种方法在处理过程中缺乏深度先验且存在歧义问题。新方法则是利用transformer结构，但是计算当中会存在大小阶次的问题，特别是在视频序列中，需要跨越整个视频环境。新方法提出了一个Spatio-Temporal Criss-cross attention的块，通过对空间和时间分别进行注意力操作并将它们进行连接，以模拟在同一帧中的关节间交互和在同一轨迹中的关节间交互。以此为基础，提出了一个新的Structure-enhanced Positional Embedding方法。两种方法的实验结果显示，在Human3.6M和MPI-INF-3DHP benchmarks中都有优越的表现。
(3): 该论文提出的方法是利用transformer结构进行空间和时间拆分，提出了一个新的Spatio-Temporal Criss-cross attention的块和一个新的Structure-enhanced Positional Embedding (SPE)方法，结合多个Spatio-Temporal Criss-cross attention的块构成了STCFormer。
(4): 该方法在3D人体姿态估计的任务上，在Human3.6M数据集上实现了40.5mm P1 error的表现，是迄今为止最好的表现。这个结果可以支持他们的研究目标。

Methods:

(1): 该文章提出了一个新的3D人体姿态估计的方法，称为STCFormer。该方法利用transformer结构对空间和时间进行拆分，并提出了一个新的Spatio-Temporal Criss-cross attention的块和一个新的Structure-enhanced Positional Embedding (SPE)方法。在视频序列中，所提出的方法是基于Spatio-Temporal Criss-cross attention，可以模拟同一帧中和同一轨迹中关节之间的交互。SPE则可以将空间和时间信息编码为结构增强的位置嵌入。STCFormer基于多个Spatio-Temporal Criss-cross Attention的块搭建而成，实现了3D人体姿态估计任务的优异性能，表现优于其他已经发表的方法。
(2): 本文方法的优点在于能够利用transformer结构对空间和时间进行拆分，并能够模拟帧内和轨迹内之间的关节交互，在处理动态3D人体姿态估计时具有优势。此外，该方法引入了结构增强的位置嵌入，可以更好地建模人体姿态的结构信息。
(3): 实验部分使用了Human3.6M和MPI-INF-3DHP两个数据集与其他方法进行比较，证明了该方法的有效性和优越性。在Human3.6M数据集上，STCFormer实现了40.5mm P1 error的表现，是迄今为止最好的表现。
(4): 该文章的方法对于解决计算机视觉领域中3D人体姿态估计的问题具有重要的意义，并且可以为人机交互、虚拟现实和运动预测等领域的应用提供支持。

Conclusion:

(1): 该篇文章提出的方法对于解决计算机视觉领域中3D人体姿态估计的问题具有重要的意义，并且可以为人机交互、虚拟现实和运动预测等领域的应用提供支持。
(2): 创新点：文章提出了一种新的Spatio-Temporal Criss-cross Transformer (STCFormer)方法，将transformer结构应用于3D人体姿态估计，并且引入了新的Spatio-Temporal Criss-cross attention块和Structure-enhanced Positional Embedding (SPE)方法。性能方面：在Human3.6M数据集上实现了40.5mm P1 error的表现，是迄今为止最好的表现。工作量方面：文章没有明确说明工作量，但是新提出的STCFormer具有较高的计算复杂度。

upDiff

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
CVPR2023新作：3D人体姿态估计II

(1): 该文章提出了一个新的3D人体姿态估计的方法，称为STCFormer。(3): 该论文提出的方法是利用transformer结构进行空间和时间拆分，提出了一个新的Spatio-Temporal Criss-cross attention的块和一个新的Structure-enhanced Positional Embedding (SPE)方法，结合多个Spatio-Temporal Criss-cross attention的块构成了STCFormer。这个结果可以支持他们的研究目标。
复制链接

扫一扫