论文笔记：3D Human Pose Estimation with Spatial and Temporal Transformers

程思睿Siri

已于 2022-03-15 19:22:32 修改

阅读量1.7k

点赞数

分类专栏： python 图像识别 pytorch 文章标签： python

于 2022-03-15 19:21:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_53534129/article/details/123505342

版权

python 同时被 3 个专栏收录

8 篇文章

订阅专栏

5 篇文章

订阅专栏

3 篇文章

订阅专栏

题目：
1. 3D Human Pose Estimation with Spatial and Temporal Transformers
2. 利用时空Transformer去预测人体骨骼点的3D坐标
采用的数据集：
1. We evaluate our model on two commonly used 3D HPEdatasets, Human3.6M and MPI-INF-3DHP
主体思想：
1. 利用已经有的基于2D平面的坐标点（已知）去预测其3D坐标
2. 输入输出形状
  2. 上面是输入（batchsize,frame,17,2）81帧，17个关键点，维度是2
  3. 上面是输入（batchsize,1,17,2）预测1帧，17个关键点，维度是3
3. 模型：
  2. Baseline是左边这张图，文章所提出的模型是右边这张图
  3. Spatial and Temporal Transformers（时空transformer）
    1. Temporal Tranformer Baseline（时间transformer）
    2. 主要思想是传统的transformer模型，将每一帧的2D pose骨骼关键点作为输入的的token，经过embedding之后输入到Temporal Transformer 中，以此预测的3D骨骼关键点。
    3. Spatial and Temporal Transformers（时空transformer）
      1. 而作者提出的Spatial and Temporal Transformers是在原有的Temporal Transformer的情况下，将Encoder中的Embedding部分改为一个Spatical Transformer，将每一帧的17个骨骼关键点分开为17份，每一份作为一个Spatial Transformer的Token，生成一个Encoded Feature。如果一开始有9帧，每一帧都会生成一个feature，所以空间Transformer的输出就会有9个feature，作为Encoding的结果输入到下一步参与训练。
  4. 测试指标：
    1. Protocol1：MPJPE：
      1. Mean Per Joint Position Error即“平均（每）关节位置误差”
    2. Protocol2：P-MPJPE
      1. 先经过旋转、对齐等变换再进行MPJPE
    3. 最后效果
      1. (Red: best; Blue: second best)

5. 其中需要的一些数据包需要自己下载，可以自己上网搜或者按照readme给出的链接下载。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程思睿Siri 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。