Self-Supervised Learning of 3D Human Pose using Multi-view Geometry

  • Self-supervised Monocular Trained Depth Estimation usingSelf-attention and Discrete Disparity Volume自监督深度估计,利用自注意力机制,离散分类网络视差图估计估计深度,并且能够产生不确定性

本文:

背景

训练三维人体姿态估计需要三维真实数据,而收集成本很高。

许多姿势估计方法缺乏三维数据,除了二维的真实姿势,需要额外的监督,例如未匹配的三维真实数据,标签的小子集,相机参数在多视角的环境下

提出:EpipolarPose,从单张图片预测3D人体姿态,训练时不需要3D监督

上极几何学获得三维姿势和摄像机几何学

标准数据集Huamn3.6M, MPI-INF-3D上证明

提出了新的性能指标-姿势结构得分PSS:尺度不变、结构感知的措施来评估姿势的结构合理性和ground-truth

人在野外的姿势估计

创新点

使用二维姿势估算,表极几何来获得三维姿势,用来训练三维姿势估计器

人体姿势需要高级的推理,姿势的结构误差,比传统的评估指标定位误差更重要。eg MPJPE每个关节位置平均误差,PCK正确关键点百分比。传统指标只能独立处理每个关节,而不是整个姿势结构评估

PSS姿势结构得分:

计算方式

ground truth 姿势的自然分布进行建模,无监督的聚类方式

p:图像预测姿势,q真实姿势

找到与p q最接近的聚类中心,分配到同一个聚类中心,PSS为1,否则为0

EpipolarPose 不需要任何三维监督或者相机外因的方法

相关工作

EP在推理过程中单视角,训练时多视角、自监督

单视角

【19】深度回归网络和身体部位检测 进行了从单图像中获得合理准确性的姿势估计

【38】监督学习和自动编码器用于结构学习

【29】三维人体姿势估计视为 3D关节点定位问题

【36】积分姿态回归和 soft argmax相结合

多视角方法:

缺乏3D注释,探索弱监督和自监督的人体姿势估计方法。

【31】多视图一致性来约束去监督网络

【9】【41】深度逆向网络引入

方法实现

 n大于等于2的相机同时拍摄,连续的图像对

相同的姿势估计网络上进行,网络在MPII上预训练

只有上层分支的网络被训练(3D姿势),另一个保持被冻结

获得体积热图H,wxhxd,w,h为去卷积后的空间大小,d为超参的深度分辨率

U被认为是2D ground truth,通过

IntergralPose为代码框架,ResNet-50为backbone

input图像 256x256

输出heatmap: Jx64x64x64 J为关键点数量

总结和思考

GT表示使用H36M中的2D标签,wo/R表示不用旋转矩阵R

2D GT训练上和MPII预训练差异很大,2D关键点估计质量很重要

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值