Abstract
- 提出基于二维关键点上的时间空洞卷积的全卷积模型;
- 介绍了一种利用无标记视频数据的半监督训练方法——反投影;
- https://github.com/facebookresearch/VideoPose3D
Introduction
工作重点:
- 视频三位人体姿态估计
难点:
- 多个3D姿势可以映射到相同的2D关键点(模糊性);
- 低资源,缺乏标记数据;
方法:
- 提出了一种基于二维关键点轨迹上的时间卷积的视频三维人体姿态估计方法:该结构在二维关键点上执行时间卷积,可降低复杂度和参数个数;
- 利用未标记数据进行半监督学习,使用现成的2D键点检测器预测未标记视频的2D键点,预测3D姿态,然后将它们映射回2D空间(只需要摄像机的内部参数);
Related work
- 两步走方法(先预测2D关键点然后提升到三维空间),受益于中间监督,效果优于端到端;
- 使用关键点坐标定位而非热图(heatmap计算成本高,准确性取决于分表率);
- 对时间进行一维卷积;
- 使用Mask R-CNN和CPN,相比stacked hourglass更具有鲁棒性。
Temporal dilated convolutional model
时域空洞卷积自底至上输出三维信息,捕获长期关系:
网络模型结构:
结构以:
- 每帧J个关节的x、y坐标为输入;
- 卷积核大小W,输出C个特征;
- 应用B个残差模块,其中包括:
首先执行一维卷积,大小为W,扩张系数D;
线型投影(卷积),W=1,D=1;
batchnorm,线性校正单元,dropout……
关于空洞卷积:
- 每个区块的接受域都以W为因子呈指数增长,而参数的数量只呈线性增长;
- 非零填充,以左右边界值填充;
Semi-supervised approach
- 引入半监督方法,利用未标记数据和二维关键点检测器,提高精度;
- 增加监督损失函数与反投影损失项;
- 利用三维姿态估计器作为编码器,将预测的姿态映射回二维空间,在此基础上计算重构损失;
- 包括一个监督组件和一个作为正则化器的非监督组件共同优化,其中标记数据占批次的前半部分,未标记数据占批次的后半部分。对于标记数据,我们使用地面真实三维姿态作为目标,训练监督损失。未标记的数据用于计算自动编码器损失,其中预测的3D姿态被投影回2D,然后检查与输入的一致性;
- 2D位姿包括:轨迹(人体在空间中的位置),和3D位姿(关节在人体的相对位置),因此分别回归两个相同体系结构网络,不共享权重;
- 骨长L2约束:将平均骨长作为软约束匹配未标记与标记数据;
- 只需要相机的内部参数(即焦距、主点和倾斜(可选));
- 该方法不依赖于任何特定的网络结构,可以应用于任何以二维关键点为输入的三维位姿检测器。
Experimental setup
数据集:
- Human3.6M
- HumanEva-I;
评估方案:
- 方案1:以毫米为单位的关节位置误差(MPJPE),欧式距离;
- 方案2:刚性对齐后的误差(P-MPJPE);
- 方案3:半监督实验中将预测姿态与ground-truth对齐(N-MPJPE);