MATLAB说话人识别系统GUI界面
一、 选题背景、目的及意义
随着社会的快速发展,人民的生活水平逐渐提高,人们已经进入了互联网信息时代,对生活智能的追求再提高。在智能生活中,语音识别技术是一种人机交流的重要手段,语音识别在市场的应用和分布中十分普遍,同时在一些实际的应用中,语音识别技术是作为一个十分具有竞争力的关键点。比如在声音控制的领域中,计算机能够准确地识别出输入的语音内容是一个关键点,另外,还要根据识别结果来完成对应的动作。
计算机的发展日益迅猛,对这些设备的尺寸要求也越来越严格,并且有时候需要有特殊需求,比如在行走或驾驶时需要进行信息的输入,传统的键盘输入方式已不能满足用户要求,而需要更方便、自然地在行进中有效地输入信息。采用语音识别技术可以解放用户的手眼,有效地改变人机交互手段,如目前在一些手持计算机手机等嵌入式电子产品上已经使用语音识别技术来进行控制[1]。
为此,本课题就基于MATLAB的人声音特征的识别与控制展开研究。需要实现利用语音进行控制,用户需要说出指令,经过MATLAB处理的指令信号传入单片机,由单片机执行指令,人机交互十分方便,在目前的物联网时代有着广泛的运用前景,本课题也可以认为是人工智能时代的应用研究。语音的特点跟很多因素有关系,比如音调、音色、语速、说话人的情绪等。所以最为重要的是,建立合理的语音数学模型以及提取出语音信号参数的特征。本次毕业设计中对语音信号处理方面进行具有一定使用价值的研究。
二、 语音识别与控制系统方案设计
2.1 语音识别方式选择
目前语音识别的研究方向有3个:基于声道模型和语音知识的方法、利用人工神经网络的方法以及模版匹配的方法[7]。其中,方法1需要建立人类发音的数学模型,让计算机能够听懂人类的话。方法2是模仿人的大脑的神经活动,学习一门新的语音,从字到词语,从词语到句子,需要大量的数据库。方法3是模版匹配的方法,这种方法是目前使用得最多的方法,而且其算法相对简单,所以本次设计选择的是模板匹配方法。在模板匹配中也有多种匹配方式:
① 矢量量化方法(VQ)
矢量量化是将人的语音样品训练变为码本,辨别中把样品语音遵循训练得到的码本展开编码,其确定标准为量化形成的失真度。使用矢量量化进行语音识别,具有速度非常快的优势,并且辨别准度也很高。
② 隐马尔可夫模型方法(HMM)
隐马尔可夫模型技术有着非常广泛的使用。它将语音转换成为一些符号,并且把这些符号的序列合成看作随机的过程,此种符号在导出时表示为系统发声状态。简单地说HMM模型就是关于概率矩阵的一个数学模型,从已知推断未知。
③ 动态时间规整方法(DTW)
说话人信息不但存在稳定性原因(发声的器官构成与惯性),并且还存在变化性原因(语音速度及其声调,发声轻重与规律)。把辨别模板和参考模板在时间一致下进行对比,然后按照一定的距离检测出这两块模板之间的相同程度[5]。
以上三种方法,各有优点缺点,其中矢量量化方法主要是用于说话人识别的场合,而这次的设计不针对特定的人,而是识别语音的内容,所以不合适使用。隐马尔可夫模型建立起数学模型比较复杂,对出初学者而言难度有点大。所以综合以上,最终选择用动态时间规整(DTW)算法来实现本次设计。选择动态时间规整(DTW)算法的主要原因是,算法相对容易理解,在人语音识别领域应用比较广泛,比其他几种方法更容易编程实现。最终的识别率来看也是比较理想的,在软件设计一章将会对此做详细介绍。
2.2 语音识别/控制系统总体设计
语音识别就是指通过一定的数据信号处理,让机器理解说话人的意思。识别语音内容是从许多个词汇中分辨出该词汇的内容,是一种一对多的关系,这种技术利用的方式一般为模式匹配。语音控制就是将识别出的命令通过特定的一种通讯方式发送到下位机,实现对下位机单片机的控制,从而达到语音识别的目的。
要实现语音识别控制,就必须先对样本进行训练,训练后才可以达到识别的目的。样品训练一般表示为对数据的挖掘,通过对大量的样品训练,再从中抽取其实质参数。模式匹配即根据一种特殊的算法,让待识别的样本与训练后的样本的特征参数进行相似度的计算分析,最后得到一个最佳匹配。
语音识别/控制系统,显然包括了识别和控制两个部分,系统的主要组成部分包括上位机和下位机两个部分:
上位机模块:上位机主要是笔记本,笔记本声卡采集语音信息,利用MATLAB的数据处理功能首先对声音信号进行预处理、特征参数提取,语音规整,然后利用模板匹配算法进行语音识别,最后转化为指令发送到下位机,上位机和下位机之间的通讯方式为红外通讯。
下位机模块:下位机主要是基于单片机,接收到上位机信号后,单片机开始运行,控制被控对象完成相应的动作,本次控制对象对直流电机,通过语音信号控制电机的正反转,加速、减速、停止动作。
![v2-8bda3eb027eef22b65b4636a5bfae1d8_b.jpg](https://img-blog.csdnimg.cn/img_convert/2976b171330a07c896edb7d0930d4eb7.png)
图2.1 语音识别/控制系统框图
三、 GUI设计
本次软件设计,一共分为两个部分,语音识别系统设计和控制系统设计。
其中语音识别系统的设计主要包括&