Self-Supervised Learning of 3D Human Pose using Multi-view Geometry

最新推荐文章于 2024-04-15 09:56:46 发布

fwyynl

最新推荐文章于 2024-04-15 09:56:46 发布

阅读量316

点赞数

文章标签：深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37003230/article/details/120633379

版权

Self-supervised Monocular Trained Depth Estimation usingSelf-attention and Discrete Disparity Volume自监督深度估计，利用自注意力机制，离散分类网络视差图估计估计深度，并且能够产生不确定性

本文：

背景

训练三维人体姿态估计需要三维真实数据，而收集成本很高。

许多姿势估计方法缺乏三维数据，除了二维的真实姿势，需要额外的监督，例如未匹配的三维真实数据，标签的小子集，相机参数在多视角的环境下

提出：EpipolarPose，从单张图片预测3D人体姿态，训练时不需要3D监督

上极几何学获得三维姿势和摄像机几何学

标准数据集Huamn3.6M， MPI-INF-3D上证明

提出了新的性能指标-姿势结构得分PSS：尺度不变、结构感知的措施来评估姿势的结构合理性和ground-truth

人在野外的姿势估计

创新点

使用二维姿势估算，表极几何来获得三维姿势，用来训练三维姿势估计器

人体姿势需要高级的推理，姿势的结构误差，比传统的评估指标定位误差更重要。eg MPJPE每个关节位置平均误差，PCK正确关键点百分比。传统指标只能独立处理每个关节，而不是整个姿势结构评估

PSS姿势结构得分：

计算方式

ground truth 姿势的自然分布进行建模，无监督的聚类方式

p：图像预测姿势，q真实姿势

找到与p q最接近的聚类中心，分配到同一个聚类中心，PSS为1，否则为0

EpipolarPose 不需要任何三维监督或者相机外因的方法

相关工作

EP在推理过程中单视角，训练时多视角、自监督

单视角：

【19】深度回归网络和身体部位检测进行了从单图像中获得合理准确性的姿势估计

【38】监督学习和自动编码器用于结构学习

【29】三维人体姿势估计视为 3D关节点定位问题

【36】积分姿态回归和 soft argmax相结合

多视角方法：

缺乏3D注释，探索弱监督和自监督的人体姿势估计方法。

【31】多视图一致性来约束去监督网络

【9】【41】深度逆向网络引入

方法实现

n大于等于2的相机同时拍摄，连续的图像对

相同的姿势估计网络上进行，网络在MPII上预训练

只有上层分支的网络被训练（3D姿势），另一个保持被冻结

获得体积热图H，wxhxd，w，h为去卷积后的空间大小，d为超参的深度分辨率

U被认为是2D ground truth，通过

IntergralPose为代码框架，ResNet-50为backbone

input图像 256x256

输出heatmap: Jx64x64x64 J为关键点数量

总结和思考

GT表示使用H36M中的2D标签，wo/R表示不用旋转矩阵R

2D GT训练上和MPII预训练差异很大，2D关键点估计质量很重要

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。