摘要:传统的弱监督/自监督方法需要非成对三维信息,而本文的自监督方法仅以来人体的几何结构信息,不需要手工标注数据。
代码地址:
一、介绍:基于NN的直接回归方法非常容易产生过拟合。由于深度歧义性问题,重投影损失无法产生精确的姿态,即在另一个视角下该3D pose是错误的。多视角2D pose输入会积累噪声,得到的3D pose也不准确。
贡献点:
- 提出一个自监督框架。
- 设计了一个转换重投影损失,利用多视角适配信息;通过不同相机下的2D 关节点置信度来缓解自遮挡问题。
- 在两个数据集上表现好。
二、方法:
- 双视角输入,输出两个视角下的3D pose,损失用2D pose置信度赋权。
- 为了完成3D pose的视角变换,需要得到全局坐标;因此引入一个根节点分支。
- 高能时刻
(1)求解两个视角下关节点的本质矩阵,使用RANSAC算法;
https://zhuanlan.zhihu.com/p/45532306
(2)此时已知两个3D pose的投影矩阵(内参?),用SVD分解出四种可能的相对旋转、平移矩阵,用 cheirality check 选择正确的一组;
(3)此时平移向量是单位向量,需要乘以两个相机的中点距离。
(4)变换角度后的重投影误差
4. 网络不收敛,预训练方式是3D pose角度变换正确。
5.使用数据增强,相机视角从4扩充到12,类似于
Learning pose grammar to encode human body confifiguration for 3d pose estimation, AAAI 2018.
三、实验结果
(1) Human3.6M 57.0mm还是59.00??
个人总结:
叫互监督会不会好一点?