Hands Deep in Deep Learning for Hand Pose Estimation

摘要:

  我们介绍和评估了卷积神经网络的几种架构,以预测给定深度图的手的3D关节位置。我们首先表明,可以很容易地引入3D姿势的先验,并显着提高预测的准确性和可靠性。我们还展示了如何有效地使用上下文来处理手指之间的歧义。这两个贡献使我们能够明显优于几个具有挑战性的基准状态,包括准确度和计算时间。代码可以在https://github.com/moberweger/deep-prior/找到

1. Introduction

  准确的手势估计是许多人机交互或增强现实任务的重要要求,并且在计算机视觉研究界引起了很多关注[10,11,14,15,17,22,23,29]。即使使用3D传感器构造 - 光线透射传感器,它仍然具有挑战性,同时具有很大的自由度,并且在图像中表现出自相似性和自遮挡性。

  鉴于目前计算机视觉的趋势,应用深度学习[18]来解决这一任务是很自然的,并且具有标准体系结构的卷积神经网络(CNN)在应用于此问题时表现非常好,如一个简单的实验所示。然而,网络的布局对输出的准确性有很大的影响[4,21],在本文中,我们的目标是确定最适合这个问题的架构。更具体地说,我们的贡献是双重的:

(1)我们展示了我们可以学习手势的先前模型并将其无缝地集成到网络中以提高预测姿势的准确性。 这导致网络具有不寻常的“瓶颈”,即具有比最后一层更少的神经元的层。
(2)像以前的工作[21,27]一样,我们使用一个改进阶段来独立地改进每个关节的位置估计。 由于这是一个回归问题,因此在此阶段应谨慎使用空间池和子采样。 为了解决这个问题,我们使用以关节的初始估计为中心的多个输入区域,对于较小的输入区域具有非常小的池化区域,对于较大的输入区域具有较大的池化区域。 较小的区域提供准确性,较大的区域提供上下文信息。

  我们表明,我们的原始贡献使我们在准确性和计算时间方面在几个具有挑战性的基准[22,26]上显着优于最先进的技术。 我们的方法在单个GPU上运行速度超过5000 fps,在CPU上运行速度超过500 fps,比现有技术速度快一个数量级。 在本文的其余部分,我们首先简要回顾第2节中的相关工作。我们在第3节中介绍了我们的贡献,并在第4节中对它们进行了评估。

2. Related Work

  手姿势估计是计算机视觉中的一个老问题,早期参考了九十年代,但它目前非常活跃,可能是因为深度传感器的出现。 [6]中给出了对早期工作的一个很好的概述。 在这里,我们将仅讨论最近的工作,这可以分为两种主要方法。

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值