视频中的3D人体姿态估计(3D human pose estimation in vide)--------Facebook research: VideoPose3D

最新推荐文章于 2024-03-22 09:35:26 发布

u013195114

最新推荐文章于 2024-03-22 09:35:26 发布

阅读量7.2k

点赞数 4

文章标签：深度学习 pytorch 神经网络 tensorflow

本文链接：https://blog.csdn.net/u013195114/article/details/105540196

版权

视频中的3D人体姿态估计（3D human pose estimation in video）

解读Facebook AI Research in CVPR2019: 《3D human pose estimation in video with temporal convolutions and semi-supervised training》

这里写自sdsad定义目录标题

视频中的3D人体姿态估计（3D human pose estimation in video）

Introduction:

该文章创建了一个方法“将3D的姿态估计问题转化为2D关键点的检测问题“。然而，是否能将多个3D姿态完美映射成为同一个2D关键点一直以来都存在很大争议。
之前的方法通常是利用RNN网络对时间维度进行建模，例如：《Exploiting temporal information for 3d pose estimation》和《3d pose estimation based on joint interdependency》；
事实上，采用卷积网络同样可以达到对时间维度进行建模并且相较于传统的RNN网络效果也并不差，这其中就包括如：neural machine translation, language modeling, ** speech generation**, speech recognition等。而且，采用卷积网络的另一大优势是对于大量frames可以并行处理，这一点RNN网络无法做到。
基于以上结论，该work提出了一个Temporal Convolutional Model, 该种结构接受2D keypoint sequences作为输入，最终输出3D pose extimation; 且该方法优势在于：
1. 兼容任意的2D Keypoint Detector;
2. 能够有效的解决large context(背景过大)问题 — 采用Dilated Convolutions
3. 就计算复杂度和参数量来说，比传统的RNN-based方法有同样量级的精度的同时更简单且更有效率
4. 采用“semi-supervised approach”, 可以更有效的处理训练集的标签稀少的情况 (和之前的semi-supervised方法不同，这里仅需要相机内参而不再需要实际的2D标注或者是带有相机外参的多视角图像)，

之所以引进了新的半监督训练策略去利用未标记的视频，是因为对于需要大量标记的训练数据并收集用于3D人体姿态估计的标签的NN模型来说，低资源的设定情况尤其具有挑战性，这需要非常昂贵的动捕装置及相当长的信息记录采集工作

。
如下图 takes 2D key- point sequences (bottom) as input and generates 3D pose estimates as output (top)，中间结构为dilated temporal convolutions. Temporal Convolutional Model

keywords

Dilated temporal convolutions ---- to capture long-term information
semi-supervised training ---- to leverage unlabeled video data
intermediate supervision -----中间监督
出自于《Stacked Hourglass Networks》https://zhuanlan.zhihu.com/p/65123312；【作用】：如果直接对整个网络进行梯度下降，输出层的误差经过多层反向传播会大幅减小，即发生vanishing gradients现象。为解决此问题，在每个阶段的输出上都计算损失。这种方法可以保证底层参数正常更新

Related Works

传统大多数的3D姿态估计都是基于特征工程和对骨骼于关节运动的假设【48，42，20，18】，最早基于CNN的方法主要是通过无需中间监督直接从RGB图像预测3D姿态的端到端的重建来进行3D姿态预测【28，53，51，54】

Two-step pose estimation
新的一类3D pose estimators, 构建于2D pose estimators之上，通过先在图像空间(keypoint)预测出2D关节点的位置，再将结果提升到3D的空间【21，34，41，52，4，16】。该方法就是采用了中间监督模式，效果比端到端的方法更好。且有文章证明是：针对ground-truth 2D keypoints，直接预测3D pose相对更简单直接，而准确预测2D pose会更困难【34】。
早期的方法是简单的采用KNN方法是从一个大的2D关键点的集合中搜索得到一组预测2D keypoints，然后简单的输出对应的3D pose。一些方法采用图像特征记忆以及2D ground-truth poses【39，41，52】，或者可以从给定的一组2D关键点来简单地预测其深度信息，进而得到预测的3D pose【58】。