虚拟现实下的手势识别综述
目录
摘要
随着虚拟现实、人机交互等技术的快速发展,手势识别的研究也得到了广泛的关注。然而,很少有对虚拟现实中手势识别进行全面分析、总结、评述的相关综述研究。针对这一问题,分析比较了现有虚拟现实下手势识别技术的思路和特点,从手势分割、手势建立、手势识别以及特征提取等多个方面对虚拟现实下的手势识别技术的研究现状和发展前景进行了分析,总结出了各种方法的优缺点。在此基础上对手势识别存在的问题及发展趋势进行了总结,展望了手势识别技术今后的研究方向。
关键词:
手势识别;虚拟现实;交互技术;手势建模
1.引言
近年来,随着虚拟现实和机器学习等相关学科的发展,人机交互技术( human computer interaction,HCI)正逐渐从以“计算机为中心”向“以人为中心”转移。人机交互技术经过几十年的发展,其输人设备从最初的纸带发展到键盘、鼠标、手柄等,使得人与计算机之间的交流已经普及到了大众化的程度。曾经在很长一段时间里,人机交互领域的研究聚焦于图形用户界面(graphics user interface,GUI),其目的是使得普通用户能够更加简单、方便地使用计算机。然而,随着普适计算等新技术的出现,如何使人与机器之间的交互能够自然地模拟人与人之间的交互已经变得越来越重要。相对于传统的二维图形用户界面,以人体自身直接作为交流平台的自然用户界面为操作者提供了更为直观、 舒适的交互体验,并进行了大量的相关研究,如人脸识别、手势识别、眼动跟踪,以及体势识别等。作为一种不需要中间媒介、非常人性化的人机交互方式,手势是一种理想的自然用户界面(Natural user interface,NUI),它使人们可以用一种更自由的方式与计算机进行交流。
手势是一种非语言的交流形式,通常被定义为手或者手与臂结合所产生的各种姿势和动作,以表达想法、情绪或者强调[1]。手势是一种符合人类日常习惯的交互手段。在日常生活中人们之间的交流通常会辅以手势来传达一些信息或表达某种特定的意图,可以分为静态手势和动态手势。静态手势识别考虑某个时间点上手势的外形特征,动态手势关注一段时间内人的一系列动作,增加了时间信息和动作特征。
最初的手势识别主要是利用机器设备的直接检测来获取人手与各个关节的空间信息,其典型代表设备如数据手套[2]等。1983年来自AT&T的Grimes[3]原创性地发明了最早的数据手套;1984年,VPL公司生产的数据手套能够使用光纤传感器检测出手指的弯曲程度; Liang等[4]利用数据手套识别出台湾手语中多个基本词条.其识别率达到90.5%;1991年,Virtual Technologies公司推出了Cyber Glove,该手套包含了线形弯曲传感器和电子张力变形测量器、能够获得较高的精度和稳定性;吴江琴等[5]使用Cyber Glove进行中国手语识别、对孤立词的识别率达到90%.对简单语句的识别率则达到了92%;Assam和Grobel[6]从带颜色手套的实验者的记录视频中提取特征,采用隐马尔科夫模型( Hidden Markov Model,HMM)识别了261个孤立词汇,其正确率达到91.3%。后来因数据手套受到了手势的自然性和可识别的手势较少的限制,光学标记法诞生并取代了数据手套。该方法也可提供良好的效果,但仍需较为复杂的设备机器设备的直接检测;虽然手势识别的准确度和稳定性得到了提高,但却限制了手势的自然表达方式。针对这些技术问题,Erol等[7]对2007年以前的研究工作进行了分析和总结;关然等[8]从手势分割和手势识别两个方面重点分析了最新的研究进展。但是,上述研究主要集中在手势的鲁棒性分割与识别方面,并不能全面体现该领域相关技术的最新进展。
为此,本文对近几年虚拟现实下的手势识别研究进行了归纳梳理,重点阐述了手势识别的研究思路,与主流方法。本文第2节主要介绍手势识别国内外研究现状;第3节介绍手势识别的关键技术,包括手势分割、手势建模、手势识别以及特征提取等方面;第4节阐述现阶段手势识别研究存在的问题及发展趋势;最后总结全文。
2.国内外研究现状
手是人类最灵敏的身体部分,在物理世界中能够被用来完成各种操作任务,而具有高效运动/操作技能的双手也可以很方便地被训练用来执行人机交互上下文中的各种虚拟控制任务.例如,将手映射为一个虚拟鼠标,来完成虚拟场景中各种指点和勾画任务[9];将手势应用在虚拟/增强现实环境下,用来驱动漫游或者完成对虚拟对象的抓取、平移、旋转和缩放等各种操作[10];将手势应用在交互桌面系统中,使得用户能够像在物理桌面上操作真实物体一样操作交互桌面系统中的数字物体[11]。
在20世纪90年代初,就开始了手势识别的研究。付永刚[12]采用两个摄像机实现了一个双手交互的Video Desk系统,系统将采集的视频图像与预先定义好的捏取、指点及拖拽等常用手势进行对比匹配来进行手势识别。1991年,日本富士通公司完成了对46个手势符号的识别工作[13]。HyeSun[14]建立了手势的六维特征向量,并利用整合的HMM识别出了13种手势:这种方法相比于传统的HMM方法而言,能够通过手势之间的关系来改善识别结果.其不足之处是过程比较复杂。Wilson 和Bobick[15]提出了一种基于状态的手势识别方法。通过将手势看作为空间中的一条轨迹将轨迹曲线划分成不同的状态,然后用一组连续的状态序列来表示手势将等待识别的图像序列与原型进行对比。所得的结果作为识别的判据,Korea Polytechnic大学的Lee等[16]用熵分析法从背景较为复杂的视频流中分割并提取出手势区域以进行手势识别,该系统可识别6种手势,平均识别率达到95%。美国MIT媒体实验室的Darrel等[17]采用动态时间规整算法对“Hello”手势进行识别,识别率达到了97%。Yang[18]对 40个美国手语进行识别,所采用的方法是时延神经网络。学习的对象是手势的运动轨迹该方法在在训练集上的识别率高达99% ,测试集的识别率也达到了96%。
虽然国内对手势识别的研究较晚但取得的成果较显著比较具有代表性的主要有,清华大学祝远新等[19]提出了一种基于表观的新的手势识别技术该课题组通过结合手势的运;动表观形状表观和时序信息建立了动态手势的时空表观模型为抽取时空表观模型的参数,提出了基于运动形状和颜色等多模式信息分层融合的策略而且建立的实验系统可对种手势进行在线识别。识别率超过90%[20,21]。北方交通大学的王延江等人提取手势轨迹中关键点的运动方向。将之与标准手势中所有可能的特征码进行匹配从而实现识别手势轨迹中科院软件所的王西颖等[22]结合HMM与模糊神经网络提出了一种基于HMM-FNN模型的结构,能够识出复杂背景下的动态手势。上海交通大学的刘江华等[23]通过跟踪双手的运动识别的动态手势。采用光流法和耦合隐马尔科夫模型,所能达到的识别率为96.7%。张习文和王西颖[24]等利用一组二维手势模型来替代三维模型。其过程是先利用贝叶斯分类器对静态手势进行识别、然后动态跟踪图像: