基于GMM和BP神经网络的说话人识别系统（一）预处理

最新推荐文章于 2022-05-30 21:17:25 发布

琉璃晴久

最新推荐文章于 2022-05-30 21:17:25 发布

阅读量889

点赞数

分类专栏： MATLAB 深度学习文章标签：语音识别神经网络 matlab

本文链接：https://blog.csdn.net/qq_31271805/article/details/115700488

版权

MATLAB 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

深度学习

2 篇文章 0 订阅

订阅专栏

前言

随着人类社会的发展，人们对生物识别技术的要求越来越高。语言是包括人在内的生物的内在特征之一。作为一种生物识别技术，它有许多优点。说话人识别技术是一种语音识别技术。其在很多领域已经有了非常重要的应用，比如互联网、远程控制、通信系统、门禁系统等等。

一、说话人识别的模型和原理

1.系统结构

二、语音数据预处理

在对语音信号进行分析和处理之前，必须对其进行预加重、分帧、加窗等预处理操作。这些操作的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。

1.语音采集

人的原始语音是连续的模拟信号，语音的采集通常由麦克风或其他采集设备完成，设备将原始的模拟信号转化为数字信号进行存储，根据奈奎斯特定律，当采样频率大于原始信号的带宽的频率的两倍时，获得的数字信号就可以完整的复原原始模拟信号，人的声音的频率通常在0.3-4khz之间，所以语音的采样频率通常在8khz以上。采样后我们还需要进行量化编码转化为2进制数字存入存储设备，量化方法有均匀量化和非均匀量化。

2.音频端点检测

从连续的语音流中检测出有效的语音段。它包括两个方面，检测出有效语音的起始点即前端点，检测出有效语音的结束点即后端点。如果音频前面部分连续M0帧的能量值低于一个事先指定的能量值阈值E0，接下来的连续M0帧能量值大于E0，则在语音能量值增大的地方就是语音的前端点。同样的，如果连续的若干帧语音能量值较大，随后的帧能量值变小，并且持续一定的时长，可以认为在能量值减小的地方即是语音的后端点。我们首先需要对短时能量和过零率设置两个门限值，随后计算一帧的短时能量和过零率，如果每一帧的值大于门限值即可判断开始和结束。

3.预加重处理

将语音信号通过一个高通滤波器，预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

4.分帧

先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20-30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是256/8000 1000=32ms。