3D-pose学习笔记

1 introduction

​ 已有许多工作从视频序列中估计2D关键点,再通过2D关键点估计3D关键点。作者提到,将这两个任务分开在理论上可以降低问题的复杂度,但是事实却是:这两个任务是模棱两可的(2D序列可以映射到3D序列)。为了解决这个问题,有研究者利用时序模型RCNN来解决这个问题。

​ 本文的工作:

​ ① 提出了一个可以适配任何视频序列→2D序列模型2D序列→3D序列模型,利用的是一个空洞卷积网络。它在同等精度的情况下比现有的RCNN方法更加的高效。

image-20220313162559759

image-20220313165251593

​ ② 为了应对数据量少的问题,文章还提出了一种半监督训练的方案,利用现有的方法从视频序列→2D序列,再2D序列→3D,最后再映射回2D。

image-20220313165022362

2 Related work

​ ① Two-step pose estimation:先从图片→2D,再从2D→3D,受益于中间监督,其效果优于端到端;

​ ② Video pose estimation:从关注单帧到关注视频序列,关注时序信息。也有seq2seq的方式(2D→3D);

​ ③ Semi-supervised training:GAN与基于序数深度的弱监督方法;

​ ④ 3D shape recovery:文章探讨的是3D关键点重建,也有部分工作关注的是3D形状的重建;

​ ⑤ Our work:采用关键点而不是热图,从而可以采用一维卷积。文章发现采用Mask R-CNN和CPN作为2D预测的监测器,相比stacked hourglass更具有鲁棒性。

3 Temporal dilated convolutional model

3.1 优势

​ ① 采用时序卷积可以在时序维度进行并行计算,而RCNN没有办法做到;

​ ② 在输入和输出路径之间有固定长度的梯度,不会出现RCNN中出现的梯度消失或者梯度爆炸的问题;

​ ③ 卷积结构对时间感受野有着精确的控制,这有利于3D姿态预测模型的时间依赖性;

​ ④ 采用空洞卷积来建模长时间依赖性

3.2 网络结构

image-20220313173010321

​ 卷积都采用一维卷积,在时序上单独对每一个关节点进行一维卷积。卷积中经常采用0填充来保持输入输出大小不变,而在本文中并不采用(文章采用复制前后关节数据或者不填充的策略)。

4 Semi-supervised approach

image-20220313174609848

Trajectory model:由于透视投影,屏幕上的2D姿势取决于轨迹(即,在每个时间步长处空间中人体的相对位置)和3D姿势(人体的相对关节位置)。因此我们回归人体的3D轨迹,使得可以正确的反向传播到2D。

​ 有监督训练中,同时训练Trajectory model;无监督训练中,用与增强预测效果。

​ 向下两个网络具有相同的网络结构,但是不共享参数。由于视频序列中行人越走越远,进行改进了损失函数:

image-20220313175102905

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值