Abstract
- 在用于人机交互的真实系统中,动态手势的自动检测和分类具有挑战性,因为(1)人们在做手势、识别和分类方面存在很大的差异;(2)系统必须在线工作,以避免在执行手势和分类之间出现明显的延迟;事实上,一个负延迟(手势完成前的分类)是可取的,因为反馈给用户可以是真正即时的。在本文中,我们使用一个递归的三维卷积神经网络来解决这些挑战,该网络可以同时从多模态数据中检测和分类动态手势。我们使用连接主义时间分类来训练网络,从未分段输入流中进行中的手势预测类标签。为了验证我们的方法,我们引入了一种新的具有挑战性的多模态动态手势数据集,该数据集由深度、颜色和立体红外传感器捕获。在这个具有挑战性的数据集上,我们的手势识别系统达到了83.8%的准确率,优于竞争对手的最新算法,接近人类88.4%的准确率。此外,我们的方法在Skig和Chalearn2014基准上达到了最先进的性能。
Introduction
- 手势和姿势是人类交流的一种常见形式。因此,人类也很自然地使用这种通信方式与机器进行交互。例如,无接触人机界面可以提高车辆的舒适性和安全性。计算机视觉系统是设计此类接口的有用工具。最近的研究将深卷积神经网络(cnn)与视频序列结合使用,显著提高了动态手势(22、23、25)和动作(13、34、37)识别的准确性。cnns还可用于组合多模态数据输入[23,25],该技术已被证明可用于在具有挑战性的照明条件下的手势识别。
- 然而,现实世界中的动态手势识别系统面临着许多开放的挑战。首先