Deep Kinematics Analysis for Monocular 3D Human Pose Estimation
题目:《单目三维人体姿态估计的深度运动学分析》
作者:Jingwei Xu⋆1,2, Zhenbo Yu⋆1,2, Bingbing Ni†1,2,3, Jiancheng Yang1,2, Xiaokang Yang1,2, Wenjun Zhan
来源:CVPR 2020
研究内容:
解决二维输入时对噪声的优化可以获得精确的三维估计,同时对修正后的二维关节使三维静态结构更加紧凑,并对得到的骨架方向进步细化三维轨迹。
研究方法:该论文对三维姿态估计的优化主要分为
①二维姿态输入→2D姿态矫正→重新找回2D姿态,其详细实现过程:
使用CNN时间模型对2D输入进行精炼(使用时间平滑①[81] ),从而获得输入精化的二维关节点,以此得到单帧三维估计模型,而此时训练/测试集还有较大的精度误差。
解决办法:从不同角度进行静化2D输入。利用投影约束,在2D输入和ground true[82] 3D关节点中获得有效的焦距和点,遵循线性回归方程 ,通过二维节点S和三维节点P计算损失函数 ;
②通过找回的2D姿态→对3D姿态进行分解估计,此任务为回归任务,将其分为长度和方向的两个互补的回归子任务(采用双流结构),得到2d坐标p‘,∆S,每个骨架的像素长度。
骨架的相对坐标为∆S=子关节坐标-父关节坐标,且定义子-夫骨架长为l(定值),子夫骨架的单位向量为r,因此∆S=lr,由此估计最终的子关节坐标。具体实现过程:
a.基于长度回归:
提前每个时间戳的姿态特征,进行特征聚合后,利用特征预测骨架长度l,得∆S=子关节坐标-父关节坐标,并求出出关于长度的损失函数Llen=|l‘-l|;
b.基于方向回归:
对每个时间戳独立估计骨架方向,通过L2归一化得单位向量r,并求出方向损失函数Ldin=<r‘-r>-1,最终损失函数为:Ldcm=Llen+ Ldin,Lfin=||s’-s||2
③轨迹姿势细化完成
对不可靠关节点进行改进,对其轨迹补全(通过对置信度较低的进行优化)。
④轨迹完成与可靠估计
在四肢关节上应用一个dropout层,设定dropout rate为1-K[83] ,将不可靠的2D节点S‘排除在外。
最终损失函数:
评价指标:
①MPJPE(计算预测关节点与对应GT关节点的L2距离[84] 的平均值)
②PA-MPJPE(经过旋转、对齐变换后再MPJPE)
创新点:
现有工作利用中间的3D表示和2D对等物来还原3D姿态,而本文利用检测到的2D节点作为输入,简化管道;
将透视投影用于2D关节点细化;
集中在单眼姿态估计,而不是单一的图像;
将直接的坐标回归分为方向估计和长度估计,将刚体结构的维数从3 * T* J降为2*T*J+J;
基于长度/方向分解,都有专属的损失函数,降低学习难度;
结论:
本文提出了一种用于单目三维位姿估计的深度运动学分析框架,将运动学正则化引入到深度模型中,实现了以噪声二维关节作为输入的更可靠的估计。采用消融原理证明每一步都重要。