看图说话——CNN和LSTM的联合应用

最新推荐文章于 2023-12-31 01:32:59 发布

HsuyiaQing.

最新推荐文章于 2023-12-31 01:32:59 发布

阅读量2.4k

点赞数

本文链接：https://blog.csdn.net/Hsuliaqing/article/details/104028751

版权

本文探讨了基于计算机视觉的中国手语识别，特别是手语字母的识别，强调了CNN和LSTM在图像特征提取和序列数据处理中的联合应用。通过CNN提取图像中的关键信息，LSTM则用于生成描述，形成一种图像到文字的机器翻译模型，解决了传统方法的局限性。

摘要由CSDN通过智能技术生成

看图说话——CNN和LSTM的联合应用

引言

聋人使用的手语，是一种进行信息交流、传递思想的自然方法，在聋校教学和聋人交流方面起着非常重要的作用。手语是由手的形状、手腕和手臂的运动，与之对应的
人脸表情、嘴唇读音形状，以及其他身体姿态相结合的人体语言。中国手语包括手指语和手势语两类：手指语由30 个手指字母构成基本单位，是用手指的变化和动作代表一
个汉语拼音字母，并按照汉语拼音规则和顺序依次拼出词语构成的语言；手势语是通过指示性的形象手指姿态模拟事物形状和动作的自然手势。由于汉字本身包含的字词较多，所以使用手势很难全面准确地将其表述完整。而手
指语与拼音的拼写方式一致，可以表达很多专业术语以及抽象概念，具有简明易学、手势较少的特点。因此，手语字母的识别是手语识别中非常重要的一部分。根据教育部

及中国文字改革委员会等单位公布的现行中国手语实施方案，中国手语中包括30个手语字母：26个单字母（A~Z）和4个双字母（ZH、CH、SH、NG），如图1所示。手语识别研究包括两类：（1）基于计算机视觉的手语识别[1]；（2）基于佩戴式设备的手语识别。由于佩戴式位置
跟踪器与数据手套的价格较高，并且穿戴方式复杂，所以很难推广到实际应用中。随着视频采集设备的普及和应用，基于计算机视觉的手语识别以其自然便捷的交互方式受到越来越多的关注，尤其是在硬件成本方面，该方式所
需设备成本很低，因此非常适于普及应用，是目前手语识别的研究重点

看图说话是深度学习波及的领域之一。其基本思想是利用卷积神经网络来做图像的特征提取ÿ