无监督单视角3D人体姿态估计中的不确定性建模[转]

该文探讨了无监督单视角3D人体姿态估计中的scale和pose不确定性问题。通过解耦预测模块并设计相应损失函数,提出了一种新的不确定性建模方法。实验表明,这种方法能有效提升估计的准确性,结果接近全监督方法。
摘要由CSDN通过智能技术生成

[转]无监督单视角3D人体姿态估计中的不确定性建模 - 知乎

Introduction

来自ICCV2021的工作Towards Alleviating the Modeling Ambiguity of Unsupervised Monocular 3D Human Pose Estimation。本文针对了无监督单视角3D人体姿态估计中的不确定性问题进行了研究,整个工作直指本质,实验丰富,收获很大。这个Ambiguity主要在于两部分:

  1. Scale ambiguity:在单视角中,如果没有别的约束,一个2D pose可以映射无数个不同scale的3D pose。
  2. Pose ambiguity: 一个2D pose可以对应多个不同形状的3D pose,且都可能是合理的。

针对这两个问题,文章解耦了从2D到3D估计中scale和pose预测的模块,并分别设计了合理的损失函数和训练策略。

Method

Scale Estimation

相机成像的几何关系是一个简单的仿射变换,其中{x,y}是2D图像上的像素位置,{X,Y,Z}是相机坐标系下的3D实际位置,f是对应轴上的焦距,c是对应轴像素中心坐标。

 本文指出,这个映射可以被用来定义被估计人体scale的大小。首先对2D pose简单中心化:

显然这时就有,继续作假设,同一个人的各个keypoint的Z轴深度相差不大,可以用同一个量表示,论文中还对D的表示做了【归一化】,使得其是一个约等于1的数。给定所keypoint的3D和2D pose,由此定义scale为: 

 

其中,表示所有keypoint对应函数取值中最大和最小的差。 

 在实际视频中,逐帧计算了scale后如下图AB所示,事实上是没有什么长期规律的,这是由人物在空间中的位置决定的。考虑把scale转变成频率图后,假定是一个正态分布,那么分布的方差和均值是可学的。

这部分使用KL散度作约束,希望prediction的scale能够贴近【GT】的distribution。

 

但是由于分布的约束是被应用于整个domain上,不针对于单一的视频和单一帧,所以还应用了bone length的约束。约束应用于不同帧间,不使用额外参数。

 

总结第一部分利用时序尺度一致性的loss,并且加入L2正则化, 

Lifting Optimized 2D Pose to 3D Counterpart

这部分的大致思路和之前Unsupervised 3D Pose Estimation with Geometric Self-Supervision的工作一致,这篇的阅读笔记。大致是将2D pose提升到3D后进行旋转再映射回去,在这个过程中做自监督的映射差的loss,即:

在旋转的时候需要对重映射的2D姿态进入判别器判断是否【合理】,这里没有用交叉熵来作为损失函数,而是对判别器和生成器(即lifting network)定义如下损失函数:

考虑到计算的效率,不同于之前的工作使用判别器进行时序约束,本文根据运动在不同视角下的统一性,提出了Multi-view Motion Consistency,即:

Implementation

本文是解耦的两个模块,scale和pose,训练的方式是端到端的,但是实际上pose模块每训练4次后,才更新一次scale,各自训练时,另一模块的权重是冻结的,消融实验如下:

详细的超参数和训练过程在这里不再阐述,最后本文的结果是十分出色的,甚至接近了全监督的结果。

对于【Normalization】的处理也有对比试验

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值