【论文阅读】Self-supervised 3D hand pose estimation through training by fitting

数据拟合误差来表述姿势估计网络的训练损失,即
手部表面被一组球体所近似。直接将姿势参数化为球体中心,我们的
我们的方法利用了FCN的优点,避免了直接角度回归的困难。除了数据
项,我们还设置了先验项,包括一个来自训练有素的VAE的数据驱动项。
训练有素的VAE,以鼓励运动学的可行性。

- 我们提出了一种自我监督的方法,用于从深度图中进行三维手部姿势的估计。
我们提出了一种自我监督的方法,用于从深度图中进行3D手部姿势估计。在没有任何人工标签的情况下,该方法实现了与需要大量注释的先进技术相媲美的结果。
- 我们提出了一种新的方法,将无监督的
基于模型的拟合与有监督的判别方法相结合,用于手部姿势的估计。
- 我们提供了一种方法来规范运动学的可行性
我们提供了一种方法,通过放置一组精心设计的先验参数来规范FCN中的运动学可行性。
包括一个由VAE学习的数据驱动的术语。

我们分享了数据驱动方法的好处,因为我们在整组未标记的深度图上的模型拟合误差最小。
而不是像基于模型的跟踪那样独立地拟合帧。

如我们的实验所示(见4.2节),在一组数据上进行联合优化,当数据集的大小达到一定程度时,就能提高精确度。当数据集的大小增加时,准确性也会提高。
在这种情况下,模型拟合能量可以直接解释为自我监督的训练损失。训练好的网络从以前估计的样本中泛化出来,同时仍然利用来自综合标记数据的监督。
此外,该方法能够实现高效推理,只需使用一次前向forward pass
而基于模型的跟踪则需要初始化和多次迭代。

图7显示,如果不使用这些先验条件来调节
姿势的估计,成功帧的百分比就会急剧下降。
成功帧的百分比大幅下降,特别是在
在误差阈值为20毫米到40毫米的范围内。这
验证了每一个先验因素在执行运动学上可行的姿势估计方面的作用。

仅在测试样本上直接训练的平均联合误差比在训练样本上训练的平均联合误差高。我们将此归因于当前的模型拟合条件和反向传播的优化;它不能在只有少量训练数据的情况下产生高度准确的姿势估计。这些好处证明了数据驱动的
基于数据的自我监督方法比传统的基于模型的跟踪方法更有说服力,后者独立地优化每一帧。

我们的
首先,我们的方法利用了FCN的优势,而[6]则直接回归关节角度;

第二,他们的深度项中没有梯度。深度项([6]中的公式6)中没有梯度,与深度图中无法解释的
我们用Ld2m来处理深度图中的点。

在更严格的误差标准下,例如,当阈值为20毫米或时,我们的准确性不再像最先进的那样好。
我们将此归因于两个原因。
首先,只用球体来逼近手部表面是不够的,无法捕捉较小的拟合误差。为了提高精确度,我们需要使用更精细的模型,例如更个性化的手部网格模型,尽管这需要更大的计算成本[2, 15]。其次,目前的先验条件。因为它们没有严格的运动学约束,所以很可能引起了关节上的小偏移。
当以平均关节位置误差进行比较时,我们的方法没有达到目前最先进的水平。
然而,我们注意到,平均关节误差,作为一个平均值,可以略有偏颇,即某些关节 "更容易 "被估计。手指根部、手掌中心和手腕,对较大的偏移不那么敏感。对较大偏移的敏感度低于指尖,尽管
指尖对于现实世界中的良好用户体验更为关键。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值