语音识别的前端处理


语音识别主要有以下五个问题:

⒈对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。
语音信息量大 语音模式不仅对不同的说话人不同,对同一说话人也是不同的 ,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。
语音的模糊性 。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语 中常见。
⒋单个字母或词、字的语音特性 受上下文的影响,以致改变了重音、音调、音量和发音速度 等。
环境噪声和干扰 对语音识别有严重影响,致使识别率低。

以上几个问题有一部分的关键在于声音的采集,在其中 语音前端处理模块扮演着重要角色。通过前端处理模块在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响, 抑制各种干扰,使待识别的语音更干净更能反映语音的本质特征。 语音前端处理算法在语音通信和语音修复中也有着广泛的应用。
语音处前端处理主要会处理这几个方面接收到的声信号在时间序列可分为三部分:直达声、早期反射声(经过一次、两次的反射,能量较大、时延较短的反射声) 、混响声(经过多次反射以后到达的数目众多、能量较小、密集的反射声群),前期反射声是指未达到稳定状态时的反射声,也就是在直达声之后混响开始衰减之前的这段时间差内的反射声,以下是一些声音的来源
1.Echo:远端扬声器播放的声音回传给麦克。
2.Diffuse Noise:无向噪声的干扰。
3.Reflected Sound:声音通过墙壁反射,造成混响干扰。
4.Interference:其他方向的干扰源。
5.Target Speech:目标方向声音。

由于噪声来源众多,在不同的应用场合其特性各不相同,增加了语音增强算法的复杂性。而且语音增强不仅仅是一个数字信号处理技术方面的问题,还涉及人的听觉感知和语音学,是一门很复杂的技术。要想理想地设计出一种算法来消除所有的噪声是不现实的,只能针对不同的噪声情况,采取不同的语音增强算法。

语音采集的过程

麦克风阵列采集的语音首先利用参考源对各通道的信号进行回波消除,然后确定声源的方向信息,进而通过波束形成算法来增强目标方向的声音,再通过混响消除方法抑制混响;需要强调的是可以 先进行多通道混响消除再进行波束形成,也可以先进行波束形成再进行单通道混响消除。经过上述处理后的单路语音进行后置滤波消除残留的音乐噪声,然后通过自动增益算法调节各个频带的能量后最为前端处理的输出,将输出的音频传递给后端进行识别和理解。

麦克风阵列
  • 12
    点赞
  • 103
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值