Hands Deep in Deep Learning for Hand Pose Estimation

本文探讨了使用卷积神经网络(CNN)预测深度图中手的3D关节位置,提出将3D姿势先验和上下文信息集成到网络中,以提高准确性和可靠性。通过实验,该方法在多个基准测试上优于现有技术,同时保持高效的计算速度。
摘要由CSDN通过智能技术生成

摘要:

  我们介绍和评估了卷积神经网络的几种架构,以预测给定深度图的手的3D关节位置。我们首先表明,可以很容易地引入3D姿势的先验,并显着提高预测的准确性和可靠性。我们还展示了如何有效地使用上下文来处理手指之间的歧义。这两个贡献使我们能够明显优于几个具有挑战性的基准状态,包括准确度和计算时间。代码可以在https://github.com/moberweger/deep-prior/找到

1. Introduction

  准确的手势估计是许多人机交互或增强现实任务的重要要求,并且在计算机视觉研究界引起了很多关注[10,11,14,15,17,22,23,29]。即使使用3D传感器构造 - 光线透射传感器,它仍然具有挑战性,同时具有很大的自由度,并且在图像中表现出自相似性和自遮挡性。

  鉴于目前计算机视觉的趋势,应用深度学习[18]来解决这一任务是很自然的,并且具有标准体系结构的卷积神经网络(CNN)在应用于此问题时表现非常好,如一个简单的实验所示。然而,网络的布局对输出的准确性有很大的影响[4,21],在本文中,我们的目标是确定最适合这个问题的架构。更具体地说,我们的贡献是双重的:

(1)我们展示了我们可以学习手势的先前模型并将其无缝地集成到网络中以提高预测姿势的准确性。 这导致网络具有不寻常的“瓶颈”,即具有比最后一层更少的神经元的层。
(2)像以前的工作[21,27]一样,我们使用一个改进阶段来独立地改进每个关节的位置估计。 由于这是一个回归问题,因此在此阶段应谨慎使用空间池和子采样。 为了解决这个问题,我们使用以关节的初始估计为中心的多个输入区域,对于较小的输入区域具有非常小的池化区域,对于较大的输入区域具有较大的池化区域。 较小的区域提供准确性,较大的区域提供上下文信息。

  我们表明,我们的原始贡献使我们在准确性和计算时间方面在几个具有挑战性的基准[22,26]上显着优于最先进的技术。 我们的方法在单个GPU上运行速度超过5000 fps,在CPU上运行速度超过500 fps,比现有技术速度快一个数量级。 在本文的其余部分,我们首先简要回顾第2节中的相关工作。我们在第3节中介绍了我们的贡献,并在第4节中对它们进行了评估。

2. Related Work

  手姿势估计是计算机视觉中的一个老问题,早期参考了九十年代,但它目前非常活跃,可能是因为深度传感器的出现。 [6]中给出了对早期工作的一个很好的概述。 在这里

深度学习在OFDM系统中的信道估计和信号检测中具有强大的能力。 在OFDM系统中,信道估计和信号检测是关键的环节。传统的方法往往需要通过数学建模和算法设计来实现,但由于信号传播特性的复杂性和非线性,这些方法往往难以处理海量数据和高维度问题。 而深度学习则通过构建深层神经网络来学习信道估计和信号检测的模式和特征。深度学习的神经网络具有强大的拟合能力和自适应性,能够从大量数据中自动学习到信道和信号的复杂模式,有效提取特征,并进行高效的估计和检测。 在信道估计方面,深度学习可以通过训练神经网络来实现对信道的建模和估计。通过输入接收到的OFDM信号和相关参数,神经网络可以通过学习整个OFDM信道的非线性特性,准确地估计出信道的状态信息,为后续信号检测提供准确的输入。 在信号检测方面,深度学习可以通过训练神经网络来实现信号的自动检测和解调。通过输入接收到的OFDM信号,神经网络可以自动学习信号的模式和特征,对信号进行准确的检测和解调,大大提高了系统的检测性能和鲁棒性。 总结而言,深度学习在OFDM系统中的信道估计和信号检测中具有强大的能力。它通过构建深层神经网络来学习信道和信号的模式和特征,实现了对复杂场景下的信道和信号的准确估计和检测,为OFDM系统的性能提升提供了一种有效的解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值