Crossing Nets: Combining GANs and VAEs with a Shared Latent Space for Hand Pose Estimation

Abstract

  • 用于从深度图像估计3D手姿势的现有技术方法需要大量带注释的训练数据。
  • 我们建议使用具有共享潜在空间的两个深度生成模型来模拟3D手部姿势和相应深度图像的统计关系。
  • 通过设计,我们的架构允许以半监督的方式从未标记的图像数据中学习。 
  • 假设一个姿势和深度图之间的一对一映射,共享潜在空间中的任何一个给定点都可以投影到一个手姿势和相应的深度图中。 然后可以通过学习鉴别器以在给定一些深度图的情况下估计潜在姿势的后验来完成回归手姿势。
  • 为了提高通用性并避免利用未标记的深度图,我们共同训练了一个生成器和一个鉴别器。 
  • 在每次迭代时,利用来自鉴别器的反向传播梯度更新发生器,以合成关节手的真实深度图,同时鉴别器受益于来自合成和未标记样本的增强训练集。

Introduction

  • 我们解决了从单深度图像估计三维手部姿势的问题。 实时精确估计三维姿态具有许多挑战,包括局部自相似性和自封闭性。 
  • 由于低成本深度传感器的可用性,在开发快速和准确的手部跟踪器方面取得的进展很大程度上依赖于拥有大量的深度图像集,这些深度图像由手关节注释。 
  • 到目前为止,还没有关于半监督式手姿估计学习的研究。 一个显著的例外[43]是使用转导随机森林的识别方法,并且在很大程度上忽略了未标记深度图的高阶像素相关性。 
  • 神经科学[31]、机器人学[1]和手部运动捕捉[16]的早期研究表明,手部运动在关节之间表现出很强的相关性。 我们进一步直觉地认为,手的深度图可以类似地编码在一个低维流形中,并用适当的生成器忠实地重建。 
  • 在本文中,我们提出了一种双生成模型,它捕获手部姿势的潜在空间和相应的深度图像,用于估计3D手部姿势。
  • 我们使用变分自动编码器(VAE)和生成对抗网络(GAN)分别对手姿势和深度图的生成过程进行建模。我们假设深度图和手姿势之间的一对一映射; 以这种方式,可以考虑共享潜在手姿势空间和潜在深度图空间。 拥有共享空间是非常有益的,因为在潜在空间中采样的点可以通过VAE的解码器表示为3D姿势,或者通过GAN的生成器表示为深度图。
  • 首先,该架构隐含地编码从姿势数据分布中学习的骨架约束。其次,通过鼓励在鉴别器网络中发现观察到的深度数据的一般表示,生成器网络有效地用于增强训练集并改进泛化。最后,该架构自然允许以半监督方式利用未标记的数据。
  • 首先,鉴别器必须能够测量潜在空间中两个给定深度图之间的差异。对于生成器,鼓励来自随机噪声的合成图像与由鉴别器测量的一些标记的参考深度图具有期望的差异。
  • 鉴别器的第二个任务是消除真实和合成深度图的歧义的标准GAN任务。 手姿势的后验估计是我们方法的核心,是鉴别器的第三项任务。
  • 我们将GAN扩展到一个半监督设置,用于实值结构化预测。GAN以前的半监督自适应只关注分类,并且基于最新分布是多模态的基本假设,每个模式对应一个类。这一假设不适用于连续姿态回归任务,因为深度图潜在空间的底层分布不一定具有多个不同的模式。 
  • 我们在多任务学习框架中处理后验估计。在训练过程中,我们利用氮化镓合成了非常逼真和精确的关节手深度图。与直接估计后位的基线相比,多任务设置估计的姿势更准确,当训练数据不足时,差异尤其显著。
  • 所学的生成器在动态的视角变化下合成高度关节化的手姿势的真实深度图,同时保持良好的潜空间。我们的新距离约束加强了所学潜在空间的平滑性,以便在潜在空间中执行随机行走对应于合成一系列实际插值的姿态和深度图。 

Related Work

  • 我们解决了一个更具挑战性的情况,即根据给定的姿势合成深度图。合成深度图需要非常精确地对应给定的姿态参数,事实上,因为我们甚至可以使用合成图像进行训练。 
  • 手部姿态估计一般分为两大类,即基于模型的跟踪和帧识别估计。传统的方法是手工设计的能量函数来测量基于模型的跟踪中合成样品和观察结果之间的差异,或者手工设计的局部或整体特征来进行鉴别估计。 
  • 由于CNN需要大量贴标的训练数据,最近提出了一种半自动的方法(21,54),用于精确标注,但仍需付出大量的努力。 另一方面,很少有作品考虑使用更容易访问的未标记深度图来学习更好的表示。 
  • 最近的著作应用卷积神经网络(CNN),并将特征提取和鉴别估计结合起来,以结束学习框架。由于CNN需要大量的标签训练数据,因此最近提出了半自动的方法来进行精确的注释,但仍然需要付出大量的努力。另一方面,很少有作品考虑使用更容易访问的未标记深度图来学习更好的表示。从这个意义上说,我们的工作类似于,它试图关联未标记的深度图。虽然采用识别方法来学习转导随机森林,但我们的生成方法能够捕获未标记深度图的分布。 
  • 我们的工作受到了[8,20]的启发,它学习了基于高斯过程潜在变量模型(GPLVM)的观测和姿态参数共享流形。另一个类似的作品是[5,55],其中,托莱恩是姿势和步态之间的潜在空间,也基于gplvm。GPLVM是一个基于参数的模型,由于我们的生成模型是以神经网络的形式存在的,因此可以通过端到端的方式学习生成模型和后验估计。

 Preliminaries

Method

  • 我们将手势估计作为一个统计学习问题:给定一个深度映射集,我们的目标是学习对应手势的后验分布。 我们通过结合两个生成神经网络来实现这一点,一个用于姿势,另一个用于深度外观。 首先,我们分别对每个网络进行预训练,以获取各个域的统计信息。 然后我们学习两个潜在空间Zx和Zy之间的映射。 然后对整个网络进行端到端的进一步训练,以完成姿态估计任务。 
  • 因此,我们可以任意选择姿态或深度映射潜在空间作为参考共享空间,然后学习映射到其他潜在空间,将两个生成模型连接在一起。 

Conclusion

  • 在本文中,我们通过估计深度图和手姿势参数的共享潜在空间的后验来提出手姿态估计方法。我们将该问题表述为跨越两个深度生成网络的网络体系结构上的多任务学习问题:用于手部姿势的变分自动编码器(VAE)和用于对深度图像的分布进行建模的生成性对抗网络(GAN)。
  • 通过学习两个潜在空间之间的映射,我们可以训练完整的网络端到端。
  • 我们可以利用GAN的泛化属性以及VAE隐含学习的姿势约束来改善判别姿态估计。此外,我们的架构自然允许从未标记的数据中学习,这对于手部姿势估计的问题非常有价值,其中注释的训练数据是稀疏的。因此,我们的方法将GAN的半监督设置扩展到实现有价值的结构化预测。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值