看图说话——CNN和LSTM的联合应用
引言
聋人使用的手语,是一种进行信息交流、传递思想的 自然方法,在聋校教学和聋人交流方面起着非常重要的作 用。手语是由手的形状、手腕和手臂的运动,与之对应的
人脸表情、嘴唇读音形状,以及其他身体姿态相结合的人 体语言。中国手语包括手指语和手势语两类:手指语由30 个手指字母构成基本单位,是用手指的变化和动作代表一
个汉语拼音字母,并按照汉语拼音规则和顺序依次拼出词 语构成的语言;手势语是通过指示性的形象手指姿态模拟 事物形状和动作的自然手势。由于汉字本身包含的字词 较多,所以使用手势很难全面准确地将其表述完整。而手
指语与拼音的拼写方式一致,可以表达很多专业术语以及 抽象概念,具有简明易学、手势较少的特点。因此,手语字 母的识别是手语识别中非常重要的一部分。根据教育部
及中国文字改革委员会等单位公布的现行中国手语实施 方案,中国手语中包括30个手语字母:26个单字母(A~Z) 和4个双字母(ZH、CH、SH、NG),如图1所示。 手语识别研究包括两类:(1)基于计算机视觉的手语 识别[1];(2)基于佩戴式设备的手语识别。由于佩戴式位置
跟踪器与数据手套的价格较高,并且穿戴方式复杂,所以 很难推广到实际应用中。随着视频采集设备的普及和应 用,基于计算机视觉的手语识别以其自然便捷的交互方式 受到越来越多的关注,尤其是在硬件成本方面,该方式所
需设备成本很低,因此非常适于普及应用,是目前手语识 别的研究重点
看图说话是深度学习波及的领域之一。其基本思想是利用卷积神经网络来做图像的特征提取ÿ