视频中的3D人体姿态估计(3D human pose estimation in vide)--------Facebook research: VideoPose3D

视频中的3D人体姿态估计(3D human pose estimation in video)

解读Facebook AI Research in CVPR2019: 《3D human pose estimation in video with temporal convolutions and semi-supervised training

Introduction:

该文章创建了一个方法“将3D的姿态估计问题转化为2D关键点的检测问题“。然而,是否能将多个3D姿态完美映射成为同一个2D关键点一直以来都存在很大争议。
之前的方法通常是利用RNN网络对时间维度进行建模,例如:《Exploiting temporal information for 3d pose estimation》和《3d pose estimation based on joint interdependency》;
事实上,采用卷积网络同样可以达到对时间维度进行建模并且相较于传统的RNN网络效果也并不差,这其中就包括如:neural machine translation, language modeling, ** speech generation**, speech recognition等。而且,采用卷积网络的另一大优势是对于大量frames可以并行处理,这一点RNN网络无法做到。
基于以上结论, 该work提出了一个Temporal Convolutional Model, 该种结构接受2D keypoint sequences作为输入,最终输出3D pose extimation; 且该方法优势在于:
1. 兼容任意的2D Keypoint Detector;
2. 能够有效的解决large context(背景过大)问题 — 采用Dilated Convolutions
3. 就计算复杂度和参数量来说,比传统的RNN-based方法有同样量级的精度的同时更简单且更有效率
4. 采用“semi-supervised approach”, 可以更有效的处理训练集的标签稀少的情况 (和之前的semi-supervised方法不同,这里仅需要相机内参而不再需要实际的2D标注或者是带有相机外参的多视角图像),

之所以引进了新的半监督训练策略去利用未标记的视频,是因为对于需要大量标记的训练数据并收集用于3D人体姿态估计的标签的NN模型来说,低资源的设定情况尤其具有挑战性,这需要非常昂贵的动捕装置及相当长的信息记录采集工作


如下图 takes 2D key- point sequences (bottom) as input and generates 3D pose estimates as output (top), 中间结构为dilated temporal convolutions.Temporal Convolutional Model

keywords

  1. Dilated temporal convolutions ---- to capture long-term information
  2. semi-supervised training ---- to leverage unlabeled video data
  3. intermediate supervision -----中间监督
    出自于《Stacked Hourglass Networks》https://zhuanlan.zhihu.com/p/65123312;【作用】:如果直接对整个网络进行梯度下降,输出层的误差经过多层反向传播会大幅减小,即发生vanishing gradients现象。为解决此问题,在每个阶段的输出上都计算损失。这种方法可以保证底层参数正常更新

Related Works

传统大多数的3D姿态估计都是基于特征工程和对骨骼于关节运动的假设【48,42,20,18】,最早基于CNN的方法主要是通过无需中间监督直接从RGB图像预测3D姿态的端到端的重建来进行3D姿态预测【28,53,51,54】

  • Two-step pose estimation
  • 新的一类3D pose estimators, 构建于2D pose estimators之上,通过先在图像空间(keypoint)预测出2D关节点的位置,再将结果提升到3D的空间【21,34,41,52,4,16】。 该方法就是采用了中间监督模式,效果比端到端的方法更好。且有文章证明是:针对ground-truth 2D keypoints, 直接预测3D pose相对更简单直接, 而准确预测2D pose会更困难【34】。
  • 早期的方法是简单的采用KNN方法是从一个大的2D关键点的集合中搜索得到一组预测2D keypoints,然后简单的输出对应的3D pose。 一些方法采用图像特征记忆以及2D ground-truth poses【39,41,52】, 或者可以从给定的一组2D关键点来简单地预测其深度信息,进而得到预测的3D pose【58】。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值