看图说话——CNN和LSTM的联合应用

本文探讨了基于计算机视觉的中国手语识别,特别是手语字母的识别,强调了CNN和LSTM在图像特征提取和序列数据处理中的联合应用。通过CNN提取图像中的关键信息,LSTM则用于生成描述,形成一种图像到文字的机器翻译模型,解决了传统方法的局限性。
摘要由CSDN通过智能技术生成

看图说话——CNN和LSTM的联合应用

引言

聋人使用的手语,是一种进行信息交流、传递思想的 自然方法,在聋校教学和聋人交流方面起着非常重要的作 用。手语是由手的形状、手腕和手臂的运动,与之对应的
人脸表情、嘴唇读音形状,以及其他身体姿态相结合的人 体语言。中国手语包括手指语和手势语两类:手指语由30 个手指字母构成基本单位,是用手指的变化和动作代表一
个汉语拼音字母,并按照汉语拼音规则和顺序依次拼出词 语构成的语言;手势语是通过指示性的形象手指姿态模拟 事物形状和动作的自然手势。由于汉字本身包含的字词 较多,所以使用手势很难全面准确地将其表述完整。而手
指语与拼音的拼写方式一致,可以表达很多专业术语以及 抽象概念,具有简明易学、手势较少的特点。因此,手语字 母的识别是手语识别中非常重要的一部分。根据教育部

及中国文字改革委员会等单位公布的现行中国手语实施 方案,中国手语中包括30个手语字母:26个单字母(A~Z) 和4个双字母(ZH、CH、SH、NG),如图1所示。 手语识别研究包括两类:(1)基于计算机视觉的手语 识别[1];(2)基于佩戴式设备的手语识别。由于佩戴式位置
跟踪器与数据手套的价格较高,并且穿戴方式复杂,所以 很难推广到实际应用中。随着视频采集设备的普及和应 用,基于计算机视觉的手语识别以其自然便捷的交互方式 受到越来越多的关注,尤其是在硬件成本方面,该方式所
需设备成本很低,因此非常适于普及应用,是目前手语识 别的研究重点

看图说话是深度学习波及的领域之一。其基本思想是利用卷积神经网络来做图像的特征提取ÿ

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值