Online Detection and Classification of Dynamic Hand Gestures with Recurrent 3D Convolutional Neural

Abstract

  • 在用于人机交互的真实系统中,动态手势的自动检测和分类具有挑战性,因为(1)人们在做手势、识别和分类方面存在很大的差异;(2)系统必须在线工作,以避免在执行手势和分类之间出现明显的延迟;事实上,一个负延迟(手势完成前的分类)是可取的,因为反馈给用户可以是真正即时的。在本文中,我们使用一个递归的三维卷积神经网络来解决这些挑战,该网络可以同时从多模态数据中检测和分类动态手势。我们使用连接主义时间分类来训练网络,从未分段输入流中进行中的手势预测类标签。为了验证我们的方法,我们引入了一种新的具有挑战性的多模态动态手势数据集,该数据集由深度、颜色和立体红外传感器捕获。在这个具有挑战性的数据集上,我们的手势识别系统达到了83.8%的准确率,优于竞争对手的最新算法,接近人类88.4%的准确率。此外,我们的方法在Skig和Chalearn2014基准上达到了最先进的性能。

Introduction

  • 手势和姿势是人类交流的一种常见形式。因此,人类也很自然地使用这种通信方式与机器进行交互。例如,无接触人机界面可以提高车辆的舒适性和安全性。计算机视觉系统是设计此类接口的有用工具。最近的研究将深卷积神经网络(cnn)与视频序列结合使用,显著提高了动态手势(22、23、25)和动作(13、34、37)识别的准确性。cnns还可用于组合多模态数据输入[23,25],该技术已被证明可用于在具有挑战性的照明条件下的手势识别。
  • 然而,现实世界中的动态手势识别系统面临着许多开放的挑战。首先,这些系统接收连续的未处理视觉数据流,其中必须同时检测和分类来自已知类的手势。大多数先前的工作,例如[21,23,25,27],分别涉及手势分割和分类。两个分类器,一个用于区分手势和非手势的检测分类器,一个用于识别特定手势类型的识别分类器,通常分别训练并按顺序应用于输入数据流。这有两个原因:(1)补偿手势持续时间的变化;(2)减少由于无手势类中未知的手势而产生的噪声。然而,这限制了系统的准确性,上游检测分类。另外,由于这两个问题相互依存度很高,联合解决是有利的。相似的协同效应被证明对联合人脸检测和姿态估计是有用的。
  • 其次,动态手势通常包含三个时间重叠的阶段:准备、核心和收缩[8,14],其中核心最具辨别力。其他两个阶段对于不同的手势类别可能非常相似,因此对准确的分类不太有用甚至有害。这促使设计主要依赖于核相的分级器。
  • 最后,人类敏锐地感知到用户界面的响应时间,滞后超过100毫秒被认为是恼人的。这就提出了一个挑战,即在手势完成后或完成前立即检测和分类手势,以提供快速反馈。
  • 本文提出了一种基于连续深度、颜色和立体红外数据流的动态手势联合分割和分类算法。基于最近CNN手势识别分类的成功,我们提出了一个使用当前三维(3D)CNN和连接主义时间分类(CTC)的网络[10]。CTC使手势分类能够基于手势的核期间,而不需要明确的预分割。此外,我们的网络解决了早期检测手势的挑战,导致零延迟或负延迟,这是响应用户界面的关键要素。我们提出了一个新的多模态手势数据集,包含25个类,用于比较我们的算法与最新的方法和人类主体的性能。

Related Work

  • 在手势和动作识别领域引入了许多用于有效视频分析的手工时空特征[33、36、39]。它们通常通过图像梯度和光流捕捉形状、外观和运动线索。Ohn Bar和Trivedi[27]评估了汽车手势识别的几个全局特征。许多视频分类系统成功地采用了改进的稠密轨迹[39]和fisher矢量[30]表示,它们被广泛认为是用于视频分析的最新局部特征和聚集技术。深度传感器的特征通常是根据深度数据的具体特征设计的。例如,随机占用模式[40]使用点云,而超法向向量[42]使用曲面法线。
  • 与手工制作的功能相比,由深度中立网络学习的功能表示有越来越大的趋势。Neverova等人[25]使用cnns结合手部和上身骨骼的颜色和深度数据来识别手语手势。Molchanov等人[22,23]将3D-CNN应用于整个视频序列,并引入时空视频增强技术,以避免过度设置。在动作识别的背景下,simonyan和zisserman[34]提出了单独的cnn,用于后期融合和显式使用光流的时空流。TRAN等人(2004年)。[37]使用3D-CNN对短视频片段的一系列分析和网络对所有片段的平均反应。最早的方法是使用预分段视频序列或处理序列的检测和分类作为分离问题。据我们所知,以前的手势识别方法都没有解决早期的手势识别问题,以达到设计有效手势界面所需的零或负滞后。已经提出了早期检测技术,用于对面部表情和关节运动进行分类[12,32],以及基于传入视频流预测未来事件[15,16]。在许多这些方法中,预测的运动都是由它们的环境(如道路或停车场)的出现来辅助的,这些环境是我们不能用来进行手势识别的。最近,连接主义时间分类被证明是有效的分类未分段的手写体和语音[9,10]。我们证明了ctc在未分割视频流手势识别中的适用性。

Method

Dataset

  • 最近,一些公共动态手势数据集被引入了[5,18,19,27]。这些数据集在手势的复杂性、主题和手势类的数量以及用于数据收集的传感器的类型方面有所不同。其中,chalearn数据集[5]提供了最多的主题和样本,但它的20个手势类(源自意大利语手语)与用户界面常见的手势集有很大不同。Viva Challenge数据集[27]提供了由少数受试者(8)在简单背景下从单一角度执行的驾驶员手势。
  • 考虑到现有数据集的局限性,为了验证我们提出的手势识别算法,我们获得了一个25种手势类型的大数据集,每个手势类型用于人机界面,由多个传感器和视点记录。我们捕获了连续的数据流,包含1532个动态手势,在室内的汽车模拟器中,有明亮和昏暗的艺术灯光(图2)。共有20名受试者参加了数据收集,其中一些人参加了两次记录的会议,一些人参加了部分会议。受试者用右手做手势,同时观察模拟器的显示并用左手控制方向盘。显示屏上的一个界面提示受试者执行每一个手势,并提供该手势的音频描述和5s视频样本。手势按随机顺序提示,每种类型在整个会话过程中请求3次。
  • 手势(图3)包括将手或两个手指向上、向下、向左或向右移动;用指南针点击;招手;打开或摇动手;显示指南针或两个或三个指南针;将手向上、向下、向外或向内推;顺时针或逆时针旋转两个指南针逆时针方向;向前推两个手指;双手合上两次;显示“拇指向上”或“好”。

Conclusion

  • 本文提出了一种新的用于动态手势识别的三维卷积神经网络分类器。它支持零滞后或负滞后的在线手势分类、有效的模态融合和弱分段视频训练。在一个新的动态手势数据集和其他基准上展示了这些相对于最新技术的改进。

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值