Augmented Skeleton Space Transfer for Depth-based Hand Pose Estimation

最新推荐文章于 2022-05-16 17:55:08 发布

铿锵的玫瑰

最新推荐文章于 2022-05-16 17:55:08 发布

阅读量554

点赞数

分类专栏：论文大全

本文链接：https://blog.csdn.net/LYKymy/article/details/94406255

版权

论文大全专栏收录该内容

162 篇文章 9 订阅

订阅专栏

Abstract

对于成功训练基于深度的3D手部姿势估计器（HPE）至关重要的是，综合数据集的可用性涵盖了不同的摄像机视角、形状和姿势变化。
我们建议通过生成新的数据库条目来完成现有的数据库。关键思想是在骨架空间中合成数据（而不是在深度地图空间中合成），这使得操作数据条目的方式简单直观。
由于以这种方式生成的骨架条目没有相应的深度图条目，我们通过训练单独的手姿势生成器（HPG）来利用它们，该生成器从条目上的骨架合成深度图。
通过在一个统一的优化框架中对hpg和hpe进行训练:

HPE同意配对的深度和骨架条目
HPG-HPE组合满足通过新生成的不成对骨架观察到的循环一致性，我们的算法构建了一个HPE，它对超出现有数据库覆盖范围的变化具有鲁棒性。

我们的训练算法采用生成对抗网络（GAN）训练过程。作为副产品，我们获得了一个可以解决现实手势的手动识别器（HPD）。我们的算法利用此功能在测试中优化初始骨架估计，进一步提高准确性。

Introduction

构建这样一个强大的手部姿势估计器（HPE）的直接方法可能是覆盖这些变化的总体因素。然而，据我们所知，现有数据集在摄像机视点，形状和/或姿势变化的覆盖范围方面受到限制。
与身体姿势估计相反，其中受试者通常是孤立的并且处于直立位置，手表现出频繁和严重的自闭塞。
当使用这些数据库中的手姿，形状和摄像机视角的地面实况注释来可视化数据空间时，可以识别空间中的缺失区域，例如，数据库未涵盖的摄像机视角。这促使研究通过合成新的骨架和深度图对来完成数据集。
直接改变深度值可以很容易地生成不切实际的手形，因为深度图中的数据条目是高度结构化和相关的。
在训练中，我们在骨架空间中合成看不见的人手并将它们转移到合成深度图：这有助于避免操纵深度图的挑战并通过编辑现有数据点，提供一种简单直观的方法来关闭数据空间中的空白。
HPD能够（结合HPG）选择逼真的人手也可以用于测试：在测试过程中，我们从初始HPE预测中合成多个手姿势假设，并通过结合HPG和HPG来生成最终的精确预测。

Related Work

Oberweger等人使用HPG从估计的骨架合成深度图。然后将该深度图与原始输入深度图进行比较以量化差异并迭代地细化骨架估计。
Wan等人提出了一种半监督学习框架，该框架使用HPG来利用不成对的深度图并学习由手姿势和深度图共享的潜在空间。
我们的方法受这些方法的启发，但细节不同，因为它们有不同的动机：我们的算法的主要目标是通过增加现有数据集来丰富它们。
现有算法侧重于在其限制内利用数据条目，例如， Wan等人利用不成对的深度图。
图形的最新进展使得合成数据的使用成为构建昂贵注释的替代方案。实际和合成数据条目之间仍然存在可观察到的差距。
应用于手姿态估计，Simon等人的多视图增强算法在训练中采用多摄像机系统，其中每个视图相关的初始估计在3D中被迭代地三角化并被细化。虽然这种方法已经证明了多视图方法的潜力，但应用于基于单个深度图的系统并非易事。通常多视图方法仅涵盖视点变化。
Ge等人提出了算法，通过生成多个二维图像单个图像来模拟多视图方法：他们首先从输入深度图估计3D点云，然后将它们投影到三个2D视图平面（x-y，x-z和z-x窗格）上。然后通过将2D卷积神经网络（CNN）应用于每个视图然后进行多视图场景融合来构建3D姿态估计。他们扩展了这个想法，以生成多视图3D气候形式，并通过单个神经网络聚合器融合它们。
虽然估计的准确性受到手形的影响，但是收集全面的数据集以进行训练，这对于训练具有挑战性。另一种方法是应用显式的基于3D手模型的方法，同时优化模型的形状，视点和姿势参数。
该框架在现有基于改进方法的成功推动下，对HPE估计的初始框架进行了改进。 Sun等人提出一个弱回归量的线性序列（级联），训练其输出残差，以引导输入指关节朝向其标准指向。将先验与二维重投影和时间一致性似然相结合，对初始姿态估计进行改进。
与以往的研究相比，我们的改进方法的不同之处在于，它利用了以下信息：

通过训练鉴别器HPDy反馈的增强骨架和相应的转移深度图
通过操纵初始估计假设多个视点

Pose estimation by skeleton set augmentation

Conclusion

现有的基于深度的手（姿势估计）数据集在形状、姿势和/或相机视点上的范围有限。
传统的数据增强方法直接操作深度图和骨架对，因此，它们的增强能力仅限于简单的二维视图相关操作。
我们引入了一个框架，将这个领域扩展到各种各样的手形和姿势。我们的算法只允许在骨架空间中增加数据，在骨架空间中，数据操作被直观地控制和大大简化，然后自动将数据传输到真实的深度图。
我们的骨架增强过程使得生成器（和相应的姿势估计器）能够吸收各种骨架变化。然而，当输入测试条目表现出来自任何（原始+增强的）训练数据库条目的显着不同的骨架姿势时，相应的合成深度图趋于模糊。