基于MATLAB的战术手势识别功能的设计与实现

本文设计了一款基于MATLAB的战术手势识别系统,通过图像预处理、分割、特征提取及BP神经网络训练,实现了高效准确的手势识别。系统包含GUI界面,提升了用户体验,测试表明该系统能快速识别战术手势,适用于军事训练。

基于MATLAB的战术手势识别功能的设计与实现

摘 要

手势识别技术是人们生活中常见的一类图像处理技术,也是目前比较火热的研究领域之一,手势识别可以用于人们生活中各种场景,比如利用手势进行电视信息交互,只需要通过手势就能实现对电视机的控制;在很多的VR游戏中,利用手势可以完成各种各样的游戏动作。总之手势识别技术在图像处理高速发展的情况下,变得越来越成熟,识别率以及识别速度也逐步提高,相信在不久的将来,手势识别技术一定会发挥更大的作用。

为便于官兵在训练中加强对手语的记忆掌握,根据不同的战术背景不同的手语需要,本文通过对手势识别算法的研究,开发出了基于MATLAB的战术手势识别功能。针对手势识别的实现,本文中首先研究了图像的预处理技术,通过对采集的战术手势图像的预处理,为后续的战术手势图像处理打下基础。接着研究手势图像的分割算法,本文中主要针对手势图像的连通域进行分析,从而将手势图像从背景中分割出来。而后将分割出的战术手势图像进行特征提取,采用手势图像的Hu不变矩以及空间几何特征作为图像的特征。最后利用BP神经网络训练图像特征,得到最终识别结果。算法高效且准确,同时开发了基于MATLAB的GUI界面,用户交互良好,界面美观,具有一定的实用价值。


关键词:MATLAB;图像处理;手势识别;GUI



目 录

摘 要 I

ABSTRACT III

目 录 V

图 目 录 IX

表 目 录 XI

第一章 绪 论 1

1.1 选题背景与研究意义 1

1.2 国内外研究现状 2

1.3 本文研究内容 3

1.4 本文研究组织结构 4

第二章 相关概念和技术 5

2.1 MATLAB语言相关概念 5

2.2 图像处理相关原理 6

2.2.1 图像处理基本概念 6

2.2.2 图像识别基本方法 7

2.3 图像处理基本方法 8

2.3.1 图像颜色空间转换 8

2.3.2 图像二值化法 8

2.3.3 图像的形态学操作 9

2.4 图像分割基本方法 10

2.4.1 常用的图像分割法 10

2.4.2 基于二值化图像的连通域分析 11

2.5 手势图像识别相关原理 12

2.5.1 手势识别基本概念 12

2.6 人工神经网络基本原理 13

2.6.1 基于BP神经网络的图像识别 15

2.7 图形用户界面GUI相关原理 16

2.8 本章小结 16

第三章 基本框架与功能设计 17

3.1 需求分析 17

3.2 可行性分析 18

3.2.1 技术可行性 18

3.2.2 经济可行性 18

3.2.3 操作可行性 18

3.3 战术手势识别功能基本框架与功能设计 19

3.3.1 战术手势识别框架设计 19

3.3.2 战术手势识别功能设计 22

3.4 GUI用户使用界面基本框架与功能设计 22

3.4.1 GUI用户使用界面框架设计 22

3.4.2 GUI用户使用界面功能设计 24

3.5 本章小结 25

第四章 图像处理和手势识别的实现 27

4.1 战术手语的编成和设计 27

4.2 手势图像预处理 30

4.2.1 手势图像颜色空间转换 30

4.2.2 图像二值化 31

4.2.3 形态学操作 32

4.2 图像分割 32

4.2.1 基于连通域的手势图像分割 33

4.3 图像特征提取 34

4.3.1 几何不变矩-Hu矩 35

4.3.2 空间几何特征 36

4.4 BP神经网络训练 36

4.5 本章小结 38

第五章 GUI用户使用界面的实现 39

5.1 GUI设计相关参数和函数 39

5.2 创建GUI图形用户界面 43

5.2.1 GUI图形用户界面创建 44

5.3 设计和实现战术手势识别用户使用界面 48

5.3.1 用户识别界面的构建 48

5.4 本章小结 56

第六章 战术手势识别功能的测试与分析 59

6.1 系统的测试与分析 59

6.2 战术手势识别功能测试 59

6.2.1 战术手势识别功能测试(一) 59

6.2.2 战术手势识别功能测试(二) 67

6.3 测试结果分析 76

6.4 本章小结 76

第七章 总结与展望 79

7.1 总结 79

7.2 展望 79

致 谢 81

附 录 83

附录一 功能完整设计与实现代码 83

附录二 手势图像训练代码 88

附录三 手势图像处理代码 90

参考文献 95

个人简历和在学期间的研究成果 97



图 目 录

图2-1 连通域示意图 11

图2-2 生物神经元结构 13

图2-3 神经元模型结构 14

图2-4 单层的神经网络图 15

图3-1 战术手势识别总体框架 19

图3-2 战术手势识别简化后框架 20

图3-3 MATLAB神经网络 21

图3-4 MATLAB神经网络(翻译后) 21

图3-4 MATLAB神经网络框图 22

图3-5 GUI用户使用界面框架 23

图4-1 HSV处理后的手势图像 30

图4-2 二值化后手势图像 31

图4-3 形态学操作后的手势图像 32

图4-4 连通域示意图 33

图4-5 手势分割图像 34

图4-6 图像的几何特征 36

图4-8 神经网络训练结果 37

图5-1 新建GUIDE文件选择界面 44

图5-2 GUI主窗口 45

图5-3 GUI基础设计流程 45

图5-4 GUI基础设计属性 46

图5-5 GUI基础设计代码1 46

图5-6 GUI基础设计代码2 47

图5-7 处理结果图 47

图5-8 初步搭建用户使用界面 49

图5-9 初步搭建用户使用界面展示 49

图5-10 战术手势识别系统用户使用界面 50

图5-11 进入读取视频按钮回调函数 51

图5-12 打开图片回调函数 51

图5-13 选择视频文件对话框 52

图5-14 读取手势视频后结果 54

图5-15 录入视频识别成功 54

图6-1 第一组测试视频 60

图6-2 第二组测试结果 60

图6-3 第三组测试结果 61

图6-4 第四组测试结果 61

图6-5 第五组测试结果(mp4) 62

图6-6 第五组测试结果(avi) 62

图6-7 第五组视频属性对比 63

图6-8 第五组分割后图像属性对比 64

图6-9 第六组测试结果 65

图6-10 断点运行后结果 66

图6-11 第二次训练结果 66

图6-12 第六组修正后训练结果 67

图6-13 排列组合结果 67

图6-14 100组测试视频 68

图6-15 100组测试音频(截取部分) 68

图6-16 有效测试数组(97组)测试时间分布图 74


表 目 录

表4-1 战术手语表 27

表4-2 战术手语编成表 29

表5-1 GUI函数属性表 40

表6-1 第一组数组测试结果(1-20) 69

表6-2 第二组数组测试结果(21-40) 70

表6-3 第三组数组测试结果(41-60) 71

表6-4 第四组数组测试结果(61-80) 72

表6-5 第五组数组测试结果(81-100) 73



第一章 绪 论

1.1 选题背景与研究意义

武警部队作为国家重要武装力量,履行着国家赋予的神圣使命,在执行解救人质、捕歼暴恐分子等任务时,确保良好的通信联络是分队行动中通信保障的重点。低劣的通信质量在实战中将导致分队无法及时得到上级行动命令、失去对战场情况的把控,指挥部无法及时了解作战情况,造成整个行动指挥的失控,最终导致丢失战场控制权,进而完全丧失战斗力。

随着现代技术的发展,各种无线、有线通信联络方式飞速发展,有效保障了分队行动中的良好通信联络。但是,战场环境的多变导致依靠无线电波等技术的通信联络具有较高的不确定性,其受地形、天气等要素的影响较多,同时也易遭到敌方势力的电子对抗打击从而降低甚至破坏我方通信联络效能。故此,作为分队行动中的战术手势通信不可或缺。

战术手势识别主要是以战术手势几何特征检验为前提,是通过探究对应的手势图像几何形状轮廓,结合相关特性来判断战术手势所蕴含的意义。就好比人在对另外一个战术手势进行识别的时候,往往需要访问自己大脑里面的记忆库,对相应的特征进行比对之后,如果与相关记忆库识别比对成功,就能够识别出战术手势的含义,如果该对象的特征无法被匹配,那么说明无法识别。

在民用领域中,识别人手部动作并给予相应反馈的手势识别研究,应用前景及潜藏的经济价值不可估量。如果能将该技术运用在军事方面,可以有效的提升部队现代化水平,提高部队对于信息的反应和处理能力,进而进一步提升单兵作战能力,减少物资和人员的消耗,全面提升战斗力。对于武警部队而言,分队战术手势识别技术可以广泛的被应用在反恐作战、防卫作战、处突维稳、日常执勤、看押看守等各个方面,分队战术手势识别的研究处于模式识别、图像处理、机器学习和计算机语言等多学科领域交叉地带,综合性很强。战术手势研究典型的应用领域有:智能控制、运动分析、虚拟现实等。通过战术手势识别技术的发展,可以实现人机通过手势变换进行交互,通过手势直接无线控制PC等电子产品;在文体活动中,手势识别也大放异彩,通过运动分析及手势分析可以极大地提高运动与舞蹈训练水平;手势分析同样可以帮助视频会议达到更好的效果,降低人物动画制作成本,或者帮助世界上不同区域的人利用互联网组成一个线上工作团队。

围绕武警部队在各类战斗、任务中的战术手势的重要性,每一名战斗在一线官兵都应该对战斗中所使用的战术手语非常熟悉,以真正达到传递信息、通信联络的作用。而常用的、熟悉的战术手语已经不具备较好的保密性和安全性,所以每一场战斗或者任务都应该将新编战术手语作为一项重要的准备工作来完成。那么设计规定好战术手语后,提高官兵的记忆效率,确保战斗或者执行任务过程中战术手语的有效正确运用便至关重要。选题即围绕战术手势的识别功能,以MATLAB为基础展开研究和设计。为便于官兵在训练中加强对手语的记忆掌握,根据不同的战术背景不同的手语需要,针对特战小队在实际任务中可以运用到的手语联络方式进行设计研究,通过自拟暗语进行训练测试,完成了基于MATLAB的战术手语的识别功能的设计与实现。

1.2 国内外研究现状

手势识别的研究起步于20世纪末,由于计算机技术的发展,特别是近年来虚拟现实技术的发展,手势识别的研究也到达一个新的高度。熵分析法是韩国的李金石、李振恩等人通过从背景复杂的视频数据中分割出人的手势形状,然后计算手型的质心到轮廓边界的距离从而识别手势的方法,该方法具有较好的识别率,在对6个实验样本的测试中,结果显示其正确识别率近乎百分百。印度人米娜克氏在基于视觉手势识别的基础上进一步研究,提出一种基于结构特征的手势识别算法。该算法包括去除背景、方向检测。手指检测以及手指的数量进行检测,最终确定手势。于成龙等采用基于视觉的组合特征进行手势识别,通过手掌的大小长度、质心、长宽比等人手的属性值结合使用,使得识别率得到极大提升。

对于手势识别的研究不仅仅限于大学或者是研究院等机构,众多的大型公司机构也纷纷加入到手势识别研究以及应用的行列。在多伦多2014年举行的“计算机人机互动大会”上,微软向世界展示了一款运动传感键盘,该键盘实现了对用户悬空手势进行的识别。该款键盘被命名为Type-Hover-Swipe键盘,它集成了64个传感器,每个传感器位于键盘的格子中间。当用户将手指悬停在键盘上方时,键盘会根据用户手指的运动进行识别,这样就可以实现用户以一种舒服的姿势进行手势操作。而Xbox则是微软比较成熟的商业化手势甚至是身体的识别。作为芯片生产巨头,Intel公司也积极参与到手势识别的大军中来。其中开源的图像处理OpenCV类库以及Realsense设备都是他们在此领域的研究成果。

国内高校及研究院对于手势识别也有着许多成就,哈尔滨工业大学的吴江琴、高文等人通过ANN与HMM的混合方法的手语训练识别方法,增加了识别方法的分类特征,同时使得模型的估计参数大幅减少,提高了效率。在实际运用中,使用ANN-HMM混合方法的中国手语识别系统中,孤立词语的识别率为90%,简单语句的识别率为92%。另外,天津大学的研究人员通过对操作者的体态动作图像信息进行处理使其能够控制机器人的运动、答复等状态。清华大学的研究人员将识别率较高的手势类型(例如数字手语)作为人机交互的信号,并将其应用于电脑游戏中,取得了成功。

1.3 本文研究内容

为提升提高官兵的记忆效率,确保战斗或者执行任务过程中战术手语的有效正确运用,最终使武警作战分队在执行任务过程中达到相互协同、信息交流及作战分队与指挥部的实时信息交互,确保各种条件下的精确稳定的信息传递,提高指挥部对作战的整体把握,保证任务圆满完成,针对武警作战分队在实际执行任务中的手势口令进行交流,立足于高保密性,高反馈性以及高实用性,研究设计和实现了基于MATLAB的作战手语战术手势识别功能,以实现手语向文字、语音结果的转化。本文着重介绍了MATLAB图像处理和手势识别的相关原理,设计的研究和实现,GUI用户使用界面的设计和实现,测试实验结果和结果分析四个方面。

(1)深入研究了MATLAB图像处理和手势识别的相关原理,介绍了计算机图像的基本概念以及MATLAB在图像处理方面的基本原理,阐述了MATLAB图像处理的几种基本方法,为设计的研究和实现提供了理论基础。

(2)设计实现了基于MATLAB的战术手势图像的处理和识别,并对本文中测试的十个手势图像及其结合语句赋予意义,通过图像处理基本方法对获取的手势图像进行处理,而后对结果进行匹配识别并进行语音播放,基本实现了预期设计目的。

(3)针对用户使用实际需求,利用MATLAB的GUI相关功能,设计实现了用户使用界面,对整个设计进行整理组合,达到了精简、便于使用的目的。

(4)进行了战术手势口令识别的相关测试。对图像以及设计使用环境进行了详细介绍,对设计整体进行测试,对设计的不足以及改进空间进行了深入分析。

1.4 本文研究组织结构

本文重点在MATLAB环境下研究和设计实现图像的处理和手势识别、并结合MATLAB本身具备的功能设计实现了用户使用平台。在研究过程中,着重实现用户可以进行自编暗语并进行识别测试,并且便于操作使用的战术手势识别功能,对识别结果进行文字以及语音形式的转化。

第一章,介绍了论文中运用到的主要技术的研究背景和本文研究设计的意义,通过阅读大量文献进行归纳总结,并对本文预期目的和将要进行的工作做简要介绍。

第二章,主要研究了需要用到的相关概念和技术,MATLAB语言相关概念、图像处理相关概念方法、手势识别相关概念方法和GUI相关原理等知识。

第三章,首先从功能需求介绍了基于MATLAB的战术手势识别功能的设计目标,给出了战术手势识别功能的的基本框架设计,并对图像处理和手势识别基本流程,GUI用户界面的构建目标进行了介绍。

第四章,在对系统的功能需求、框架、流程等进行研究后,在本章对作战手势进行简易化并设计出以数字型手语为基准的战术手势,并对其图像处理以及手势识别的实现进行详细介绍。

第五章,在对GUI用户使用界面的预期效果进行研究后,在本章对GUI设计的方法、流程等基础知识进行分析研究,并对最终完成GUI用户使用界面的设计与实现进行介绍。

第六章战术手势识别功能的测试分析。对本文设计与实现的战术手势识别功能进行了测试,对测试结果进行分析,对设计的不足以及有待改进的地方进行进一步阐述。

第七章,总结论文在写作和功能的设计实现方面完成的主要工作,针对论文的写作和功能的设计实现方面出现的问题进行列举,给出改进意见,并对设计进行展望。

在文章的最后将本论文中所用到、借鉴的参考文献进行了罗列。

第二章 相关概念和技术

本章主要对实现基于MATLAB的战术手势识别功能所使用的编程平台、基本原理、基本方法等进行介绍。此功能设计以MATLAB为平台,应用了图像处理、神经网络手势识别,同时为了满足用户的实际使用需要,以GUI为基础搭建了用户使用界面。为了使读者更容易理解本设计的实现过程和原理,本章将会对上述提到的相关软件和技术进行介绍。

2.1 MATLAB语言相关概念

2.2 图像处理相关原理

通过对MATLAB语言基本概念的了解,下面将结合本文设计所使用图像处理、手势识别以及GUI用户使用界面的相关概念进行介绍。

2.2.1 图像处理基本概念

2.3 图像处理基本方法

2.4 图像分割基本方法

2.5 手势图像识别相关原理

通过对图像处理的研究分析,在采取手势图像特征提取的基础上,结合设计的需要以BP神经网络作为手势图像识别的方法,本节即对手势识别基本概念和基于BP神经网络的图像识别进行详细介绍。

2.5.1 手势识别基本概念

手势识别(Gesture Recognition)指通过跟踪人类手势、识别并其转换为语义上有意义的命令的过程。手势图像识别的总体目标是通过计算机对获取的手的位置、姿势或形态等信息进行处理识别,并得出语义的解释或执行相应的操作。手势图像识别技术性并不是很强,其难点和重点主要是对大量数据信息的训练和处理。

手势的完成是一个动态的过程,这个过程包括了手指弯曲引起的手的形状和手在空间中的位置和方位的变化两个方面,在实际识别过程中,根据手势的时间特征,可以将手势分为静态手势和动态手势两种。相对而言,对于静态手势的识别,可以将其视为静态图像,将时间特征设定为统一值,对手势的空间特征进行研究,而动态手势则需要将时间和空间两个要素同时参考,以随时间变化的空间特征为属性对手势进行描述。静态手势的研究,可以利用手的关节、指间等特征值进行表示,而动态手势的研究则需要取一段时间内手的各种空间特征的测量序列值进行表示。同时,由于人手具有的自由度较多,运动较为复杂,导致相同的手势动作在不同的人操作时会呈现不同的运动,从而导致特征值的差别。

为了检测手的姿势或形态,可以使用通用分类器或模板匹配器进行识别。当对视频进行手势识别时,由于视频中手势含有轨迹,使其被赋予时间特征,那么就需要相应的技术诸如隐藏马尔可夫模型(HMM)等进行该特征的处理,从而使得动态的手势识别最终转化为静态的手势识别。

目前,作为比较流行的手势识别技术有模板匹配法、特征提取和BP神经网络算法。模板匹配法:作为最接近人本身对事物的识别的方法,模型匹配法是将传感器输入的原始数据与预先存储的模板进行匹配,通过测量两者之间的相似度来完成识别,相应的,模型匹配法需要大量的基础数据作为匹配对象来确保识别率,所以受到噪声、光照等复杂环境影响较大,并且识别速度慢。但是,模板匹配法具有简单、易掌握,普及程度高的优点。特征提取:指通过对输入数据的特征进行提取,并分析转化形成具有实际含义的特征属性,从而形成训练数据库,在对手势图像进行识别时,以训练数据库的特征为基础进行识别。特征提取方法缩小了基础数据的需求量,但依旧容易受到噪声、光照等复杂环境的影响,识别速度较慢。BP神经网络是一种前向传播的多层网络,BP神经网络算法是一种按误差逆传播算法训练的多层前馈网络。它的学习规则是使用最速下降法,通过反向传播来调整网络的权值和阈值,使得网络的误差平方和最小。

本文中结合运用了特征提取法和BP神经网络算法进行战术手势图像的识别,基本实现了较高的识别率同时识别速度较快。

2.6 人工神经网络基本原理

针对人工神经网络有一个经典的定义:“神经网络是由具有适应性的简单单元组成的广泛并行互连网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应”

神经元模型是模拟生物神经元结构而被设计出来的。典型的神经元结构如下图所示:


v2-4554af5cfd5524f0165c90825de74d3e_b.jpg


图2-2 生物神经元结构

神经元大致可以分为树突、突触、细胞体和轴突。树突为神经元的输入通道,其功能是将其它神经元的动作电位传递至细胞体。其它神经元的动作电位借由位于树突分支上的多个突触传递至树突上。神经细胞可以视为有两种状态的机器,激活时为“是”,不激活时为“否”。神经细胞的状态取决于从其他神经细胞接收到的信号量,以及突触的性质(抑制或加强)。当信号量超过某个阈值时,细胞体就会被激活,产生电脉冲。电脉冲沿着轴突并通过突触传递到其它神经元。

同理,我们的神经元模型就是为了模拟上述过程,典型的神经元模型如图2-3所示。


v2-93255d2db39145c2fa132246ba19da2b_b.jpg


图2-3 神经元模型结构

这个模型中,每个神经元都接受来自其它神经元的输入信号,每个信号都通过一个带有权重的连接传递,神经元把这些信号加起来得到一个总输入值,然后将总输入值与神经元的阈值进行对比(模拟阈值电位),然后通过一个“激活函数”处理得到最终的输出(模拟细胞的激活),这个输出又会作为之后神经元的输入一层一层传递下去。

为了更好的理解人工神经网络是如何作用的,这里以最小二乘法线性回归问题进行类比,在求解数据拟合直线的时候,我们是采用某种方法让预测值和实际值的“偏差”尽可能小。同理,BP神经网络也做了类似的事情,即通过让“偏差”尽可能小,使得神经网络模型尽可能好地拟合数据集。

2.6.1 基于BP神经网络的图像识别

BP网络是一种前向型的神经网络,参数前向传递,而误差则是反向传递,神经网络通常由三层组成,输入层,隐含层和输出层,其基本思想就是输入层输入需要训练的图像特征,经过隐层节点的训练得到输出层的结果,计算输出层结果与预期期望值的差值,如果差值在误差范围内,则训练结束,如果差值不在误差范围内,则反向传递误差,继续训练,训练过程中不断地调整隐层节点的权值和阈值,直到输出层的结果达到预想的期望值。单层的神经网络图如下:


v2-f4543a583174ec8d6ed89b27f0010c36_b.jpg


图2-4 单层的神经网络图

图中的P是输入列变量,b是相应偏移,a是网络输出,f是激活函数,W是网络权值。当输出结果a与期望值不相符的时候,误差沿着隐藏层进行反向传播,并将误差按照权重进行分配,使得每一个隐藏层都承担一定的误差,通过调整参数,权值优化,达到输出误差最小的目的。

神经网络图像识别技术是一种比较新型的图像识别技术,是将神经网络算法与传统的图像识别方法相融合,实现了更高效率的识别的图像识别方法。神经网络指人类通过对人体和动物的神经网络进行研究后,模仿其神经网络的构造和功能,人工生成的神经网络。在神经网络图像识别技术中,最经典的神经网络图像识别模型是遗传算法与BP神经网络算法相融合,应用面非常广。

BP网络是一种前向型的神经网络,参数前向传递,而误差则是反向传递,神经网络通常由三层组成,输入层,隐含层和输出层,其基本思想就是输入层输入需要训练的图像特征,经过隐层节点的训练得到输出层的结果,计算输出层结果与预期期望值的差值,如果差值在误差范围内,则训练结束,如果差值不在误差范围内,则反向传递误差,继续训练,训练过程中不断地调整隐层节点的权值和阈值,直到输出层的结果达到预想的期望值。

2.7 图形用户界面GUI相关原理

图像处理平台是为了实现将多个单独的图像处理算法集成在一个平台中,方便用户进行操作和使用,在MATLAB中通常使用GUI来实现图像处理平台的搭建。图形用户界面(graphical user interfaces,GUI)是MATLAB软件中的一个重要模块,具有窗口、图标、菜单和文本说明等多个图形对象,由菜单控件、按钮控件、坐标轴控件、滚动条控件、面板控件等对象控件构成,是采用图形方式显示的用户操作界面。GUI的设计可以实现图像处理过程的交互和可视化,提高了图像处理算法的综合效率,具有开发周期短、操作方便、界面友好的特点,有利于更方便快捷地控制仿真程序。搭建MATLAB GUI进行图像处理,可以充分发挥MATLAB在图形可视化方面的优势,为用户使用提供便利。

通过MATLAB GUI进行战术手势识别功能用户使用界面的设计,提供了较好的功能展现形式,使得编程工作量降低,开发效率提高。在GUI中进行图形用户界面设计的基本步骤如下:

(1)确定设计需求,根据需求目标和任务需要,绘制和设计基本框图;

(2)确定设计中需要的各个控件的布局并完成控件位置的设置;

(3)设置各个控件的属性,尤其设置唯一标识值Tag属性以实现对控件的控制;

(4)进入各个控件的回调函数,编写实现回调函数相关功能的代码;

(5)运行guide进行测试,并修改程序。

2.8 本章小结

本章首先介绍了MATLAB语言的相关概念,之后对MATLAB的图像处理和手势识别的基本概念和方法进行了阐述。并根据本文实际需要,针对基于神经网络的手势图像识别进行进一步阐述。这些概念和基础为实现基于MATLAB的战术手势识别功能的设计与实现提供了良好的基础。

第三章 基本框架与功能设计

本章主要完成了对基于MATLAB的战术手势识别功能的需求分析以及基本框架的设计。通过对整个功能实现的流程的分析,结合MATLAB本身性能和优势,,对功能实现应该具备的性能展开需求分析,阐述关键技术、操难度作以及可行性,而后依据需求分析对对系统的细分功能模块进行设计并搭建基本框架,为后期功能设计与实现打下基础。

3.1 需求分析

基于MATLAB的战术手势识别功能的设计实现能很好的提高基层官兵在训练中对手语学习的记忆和掌握。根据不同的战术背景不同的手语需要,结合特战小队在实际任务中可以运用到的手语联络方式进行设计研究,从而建立的手语库能够更好的涵盖实战的各个方面,提高训练的全面性。同时,为训练成果的检验提供了一种更为智能化的方式。

根据基层现状可知,官兵日常训练任务较重,时间安排较满,官兵日常需要背记的条令条例等固化知识较多,思维活跃受到了较大限制,使得官兵在对多变、复杂的手语进行训练记忆时,往往没有较好的效果。故此如何提高训练的质量和效益成为一个关键性问题。而在记忆学中,图像放映式记忆效果显著,通过类似播放电影的方式对手语记忆进行训练,能极大的提高训练的效果,同时,其富有的生动性、形象性能够激发官兵学习热情,促使学习过程中精力更为集中,进一步的提高训练的质量。

基于这些问题,建立一个战术手势识别功能平台是相当有必要的。通过利用MATLAB的各种功能组合设计出一个具备手势识别功能和具有用户使用界面的一个平台,应用于官兵在训练中对手语的记忆,能很好的提高训练的效果和质量,大大降低训练的时间,从而减轻基层官兵的压力。同时也为管理者对所属人员训练情况进行考核提高了平台和条件。

3.3 战术手势识别功能基本框架与功能设计

基于MATLAB的战术手势识别功能需要具备图像处理和手势识别两大模块的功能,预期实现的功能包括手势视频的读取分割、手势图像的处理识别以及GUI的用户使用界面这三个部分。

3.3.1 战术手势识别框架设计

在对MATLAB的基本操作、原理进行深入学习后,立足于MATLAB高效便捷的特点,使用MATLAB神经网络库以及GUI用户界面做支撑,研究设计了基于MATLAB的图像处理和手势识别功能,该设计总体可以分为手势视频分解、手势图像处理与识别、GUI用户使用界面三个部分,其总体框架如图3-1所示。


v2-f51613a068c3881f9ce70149a7c2824c_b.jpg


图3-1 战术手势识别总体框架

在图3-1中,将基于MATLAB的战术手势识别功能的实现的完整流程进行展示,通过框图的设计,将整个设计划分为手势视频分解、手势图像处理与识别、GUI用户使用界面三个部分的内容,在本小节将针对手势视频分解、手势图像处理与识别进行详细介绍。

(1)手势视频分解

战术手势的识别的设计与实现围绕贴近实战、便于直观的输入和输出,在手势图像处理识别的基础上,增加了手势视频分解的功能,用于将实际运用的连贯的手势动作输入后得到对应的事先规定好的文字结果,从而最终达到战术手势识别的基本功能。

(2)手势图像处理与识别

MATLAB的图像处理与识别是战术手势识别的设计与实现的主要部分,根据设计目标和功能需求,研究了MATLAB灰度图像处理、图像的二值化处理、高斯滤波处理等等图像处理方法,通过综合分析和实际测试运用,最终确定以图像分割和特征提取作为本文的基本图像处理方法。

神经网络识别方法是一种比较新型的图像识别技术,是在传统的图像识别方法和基础上融合神经网络算法的一种图像识别方法。当录入图像时,利用MATLAB的定位模块提取手势的信息,并对处理后手势图片进行训练,测试时根据录入图片的手指的弯曲、伸直等等信息进行识别,并显示最终的结果。

通过调用MATLAB的神经网络,可以最大限度的简化识别流程,从而初步达到预期效果如图3-2所示。


v2-2269468bf82c859576c381554c8682ee_b.jpg


图3-2 战术手势识别简化后框架

在图3-2的战术手势识别简化后框架中,将整个基于MATLAB的战术手势识别功能的手势图像处理识别过程划分为四个部分,第一列为图像的导入,也就是视频图像经过分割处理后的三个手势图像,将他们分别进行第二列中的处理和识别过程。第二列中,对于手势图像的处理识别过程进行了深层解析,将其划分为图像处理、特征提取、神经网络三个部分,并且,三个部分有着严格的先后顺序,一环扣一环最终实现手势图像的处理和识别过程。第三列是每单个手势图像分别经过处理识别之后产生的结果,在MATLAB的运算过程中,每个图像的识别结果以一个对应的数字的形式存在,以便于进行下一步的运算,并且,在实际设计实现过程中,对单个图像的数字结果进行了忽略,着重以三个数字为一组的语句作为结果呈现,并最终在GUI用户使用界面上,以一个整体的文字、语音结果对用户进行展示。

MATLAB中所调用的BP神经网络库的基本属性和相关内容如图3-3所示:


v2-63a9c7ad0f22885604bad477b25c4a99_b.jpg


</

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值