语音识别之前端处理及相关算法

最新推荐文章于 2024-04-28 19:30:27 发布

一摩尔自由

最新推荐文章于 2024-04-28 19:30:27 发布

阅读量1.7w

点赞数 19

分类专栏：声学与人工智能

本文链接：https://blog.csdn.net/Barry_J/article/details/80586242

版权

前言

语音识别是模式识别的一个分支，又从属于信号处理科学领域，同时与语音学、语言学、数理统计及神经生物学等学科有非常密切的关系。语音识别的目的就是让机器“听懂”人类口述的语言，包括了两方面的含义：其一是逐字逐句听懂非转化成书面语言文字;其二是对口述语言中所包含的要求或询问加以理解，做出正确响应，而不拘泥于所有词的正确转换。

　　自动语音识别技术有三个基本原理：首先语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码;其次语音是可以阅读的，即它的声学信号可以在不考虑说话人试图传达的信息内容的情况下用数十个具有区别性的、离散的符号来表示;第三语音交互是一个认知过程，因而不能与语言的语法、语义和语用结构割裂开来。

语音前端处理是指在特征提取之前，先对原始语音进行处理，部分消除噪声和不同说话人带来的影响，使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波，该方法在噪声较大的情况下效果好于其它滤波器。

一、主要问题：

 
 ⒈对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位，其次要建立一个理解语义的规则。 

 
 ⒉语音信息量大，语音模式不仅对不同的说话人不同，对同一说话人也是不同的，例如，一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。 

 
 ⒊语音的模糊性。说话者在讲话时，不同的词可能听起来是相似的。这在英语和汉语中常见。 

 
 ⒋单个字母或词、字的语音特性受上下文的影响，以致改变了重音、音调、音量和发音速度等。 

 
 ⒌环境噪声和干扰对语音识别有严重影响，致使识别率低。 

 
 以上几个问题有一部分的关键在于声音的采集，在其中语音前端处理模块扮演着重要角色。通过前端处理模块在特征提取之前，先对原始语音进行处理，部分消除噪声和不同说话人带来的影响，抑制各种干扰，使待识别的语音更干净更能反映语音的本质特征。语音前端处理算法在语音通信和语音修复中也有着广泛的应用。 

 
 语音处前端处理主要会处理这几个方面接收到的声信号在时间序列可分为三部分：直达声、早期反射声(经过一次、两次的反射，能量较大、时延较短的反射声) 、混响声(经过多次反射以后到达的数目众多、能量较小、密集的反射声群），前期反射声是指未达到稳定状态时的反射声，也就是在直达声之后混响开始衰减之前的这段时间差内的反射声，以下是一些声音的来源： 

 
 1.Echo：远端扬声器播放的声音回传给麦克。 

 
 2.Diffuse Noise：无向噪声的干扰。 

 
 3.Reflected Sound：声音通过墙壁反射，造成混响干扰。 

 
 4.Interference：其他方向的干扰源。 

 
 5.Target Speech：目标方向声音。 

由于噪声来源众多，在不同的应用场合其特性各不相同，增加了语音增强算法的复杂性。而且语音增强不仅仅是一个数字信号处理技术方面的问题，还涉及人的听觉感知和语音学，是一门很复杂的技术。要想理想地设计出一种算法来消除所有的噪声是不现实的，只能针对不同的噪声情况，采取不同的语音增强算法。

 
 语音前端处理模块跟语音交互系统的关系：橙色部分表示多通道处理模块，蓝色部分表示单通道处理模块，红色部分表示后端识别合成等模块。麦克风阵列采集的语音首先利用参考源对各通道的信号进行回波消除，然后确定声源的方向信息，进而通过波束形成算法来增强目标方向的声音，再通过混响消除方法抑制混响；需要强调的是可以先进行多通道混响消除再进行波束形成，也可以先进行波束形成再进行单通道混响消除。经过上述处理后的单路语音进行后置滤波消除残留的音乐噪声，然后通过自动增益算法调节各个频带的能量后最为前端处理的输出，将输出的音频传递给后端进行识别和理解。
 

对于远场语音识别，更多的是采用双麦克，甚至是多麦克进行声音采集，这是由于单麦克远距离拾音能力有限，而麦克风阵列可以有效的增强目标方向声音。上图为麦克风阵列采集语音的示意图，各个通道的信号通过滤波器加权融合，Y为多通道融合增强后的语音，可以将其分解为两部分：目标语音成分和残留噪声成分；残留噪声成分可以通过后置滤波算法进一步处理，也可以通过改进麦克风阵列波束形成算法使这一成分得到有效抑制。

二、语音采集的过程与相关算法

 
 麦克风阵列采集的语音首先利用参考源对各通道的信号进行回波消除，然后确定声源的方向信息，进而通过波束形成算法来增强目标方向的声音，再通过混响消除方法抑制混响；需要强调的是可以先进行多通道混响消除再进行波束形成，也可以先进行波束形成再进行单通道混响消除。经过上述处理后的单路语音进行后置滤波消除残留的音乐噪声，然后通过自动增益算法调节各个频带的能量后最为前端处理的输出，将输出的音频传递给后端进行识别和理解。 

 
 麦克风阵列 

 
 利用麦克风阵列拾音也就是说由一定数目的声学传感器组成，用来对声场的空间特性进行采样并处理的系统。是将一定数目的麦克风接受到的信号耦合为一个信号。即在两个麦克风的正前方形成一个接收区域，进而削减两个麦克风侧向的收音效果。在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用，分析出接收到语音信号音源的方向以及其变化。而这些分析都可以由极坐标图以波束形式来显示语音信号的强度与角度 

 
这个公式表示第j个麦克风接收到语音信号时域上的数学表达式，x表示安静语音，h表示房间响应函数，u表示其它噪声干扰。接下来介绍的算法将更多的侧重于对噪声源u的抑制。
此公式表示第j个麦克风接收到语音信号频域上的数学表达式，X表示安静语音，H表示房间响应函数，U表示其它噪声干扰。接下来介绍的算法将更多的侧重于对噪声源U的抑制。 
波束形成算法的目的：融合多个通道的信息抑制非目标方向的干扰源，增强目标方向的声音。从图中我们可以看到，各个麦克风接收到的语音信号存在延时，这种时延信息能够反映出声源的方向；直觉上分析，通过对齐各个通道的信号，能够增强目标语音信号，同时由于相位差异可以抵消掉部分干扰成分。 

最低0.47元/天解锁文章

一摩尔自由

关注

19
点赞
踩
98

收藏

觉得还不错? 一键收藏
打赏
0
评论
语音识别之前端处理及相关算法

前言语音识别是模式识别的一个分支，又从属于信号处理科学领域，同时与语音学、语言学、数理统计及神经生物学等学科有非常密切的关系。语音识别的目的就是让机器“听懂”人类口述的语言，包括了两方面的含义：其一是逐字逐句听懂非转化成书面语言文字;其二是对口述语言中所包含的要求或询问加以理解，做出正确响应，而不拘泥于所有词的正确转换。　　自动语音识别技术有三个基本原理：首先语音信号中的语言信息是按...
复制链接

扫一扫