Weakly-Supervised Discovery of Geometry-Aware Representation for 3D Human Pose Estimation
题目:《弱监督下的3D人体姿态估计的几何感知表示的发现》
作者:
来源:CVPR 2019
研究内容:
单人-多视图-无监督
创新点:
①使用编码器-解码器网络的源视图与目标视图都为2D骨架
(优 点: 准确保留人体姿态和几何形状;
将现有样本放一起训练并增加样本数量,以此尽可能有所有姿态的变化;
潜在空间G表示:只认为与2D姿态有关,不考虑外观、形状等)
②人体姿态的几何感知3D表示(geometry-aware 3D representation),并为提高潜在3D表示的鲁棒性,进一步引入表示一致性约束自编码器网络模型。
现有问题与技术:
①将单视图估计出的3D HPE推广至不同环境的目标,对于现在实现还较为遥远;
②精确的3D注释需要大量精力且实践会受环境、外观等影响;
③在特定数据集中安装预定义的3D模型或多视图信息,难以捕获人体所有微妙姿势;
④与物体相比,人体是铰接且相比刚性对象更容易变形
本文框架:
在只有2D姿态标注的情况下,使用很少的3D数据进行训练,在潜在空间中找出3D姿态几何表示(G)
弱监督:在多视图的2D关键点,使用自编码模型框架,作为监督。
本文主要分为以下3个框架:
(1)图像骨骼映射组件(U-Net网络)
输入原始图像 ,此图像为不同视角i,j的同一人的同一时刻的图像,从预训练好的2D姿态估计器获得2D K个关节对的热图,构造2D骨架图,通过关节点的堆叠得到二值骨架对
同时,利用虚拟摄像机进行数据增强,采用随机采用二值骨架对进行训练,不用3D姿态作为标注,只使用2D骨架
(2)基于骨架的视图合成组件
根据(1)中得到的训练集T ={(Sit , Sjt , Ri→j )}N
●encoderφ的作用:将Si→Gi,即:将2D骨架图转化到隐式空间Gi,获得人体姿态几何表示;
●decoderψ的作用:在Ri→j的控制下,将Gi→Sj,即:将隐式空间转化到2D骨架图
Si 输入(源视图)已知视角的图像
↓同一对象
Sj 输出(目标视图)新视觉下的图像
引入重建损失函数
(3)表示一致性约束
当有遮挡时,单独两视图获得的几何表示G会有误差,此组件从单目图像的前两个组合中获得学习到的表示
假设已知Ri→j且源视图与目标视图的映射为一对一
●encoder U的作用:将Sj→Gj,即:将目标骨架图转化到隐式空间G(~)j;
●decoder V的作用:在Ri→j的控制下,将Gi→Si,即:将几何表示G(~)j映射到源骨架。
(注:Gi, G(~)j是具有不同旋转系数的相机相对旋转矩阵;潜在空间G(~)j:几何感知的3D表示,可视为3D点云对其约束的线性插值)
使用双向自编码框架表示一致性损失
(4)学习几何表示进行HPE
将单目视图输入(1)后,获得2D骨架表示,通过(2)中φ得到3D几何表示G,对G进行回归后得到相应的3D坐标B的线性函数。
数据集:
Human 3.6M;MPI-INF-3DHP;MPII Human Pose
评估:MPJPE;AUC;PCK