语音信号处理_语音识别——语音信号处理

本文介绍了语音识别中的信号处理,包括使用0.025秒长度、10毫秒重叠的窗口进行帧分析,并应用汉明窗处理边缘效应。接着,通过离散傅立叶变换将信号转换到频域,提取声谱图。为了平滑频谱图的可变性,应用梅尔滤波器组,其中40个滤波器对应不同的频率范围,模拟人耳对声音的感知。梅尔滤波器组的使用有助于减少高频噪声和低频谐波结构的影响,提取有效的特征。
摘要由CSDN通过智能技术生成

451837cb76e8a99a82ebaf88be57406d.png

一、语音识别的特征提取

68f93ef32a25aeb1e85648aec97b084a.png

从观察这些波形可以明显看出,语音是一个非平稳信号。这意味着其统计属性会随时间而变化。 因此,为了正确地分析语音信号,我们需要检查块中的信号(也称为窗口或帧),这些块足够小以致于可以假定语音在这些窗口中是固定的。因此,我们对一系列短而重叠的音频帧进行分析。在语音识别中,我们通常使用长度为0.025秒(25毫秒)且重叠为0.01(10毫秒)的窗口。这对应于每秒100帧的帧速率。

因为我们要从更长的连续信号中提取一个块,所以重要的是通过在数据帧上应用窗口来照顾边缘效应。通常,使用汉明窗,尽管也可以使用其他窗。

如果我们让m为帧索引,n为样本索引,L为样本的帧大小,N为样本的帧移位,则音频的每个帧都从原始信号中提取,如下所示:

75fa38e1bd789a7b56e4d0c02ab92d49.png

其中w [n]是窗口函数。

然后,我们使用离散傅立叶变换将每帧数据转换到频域:

8c191a0bd9225872134f8e2df1030cac.png

傅立叶表示XM [k]是复数,它表示频谱幅度(绝对幅度)以及每个帧和频率的相位。 出于特征提取的目的,我们不使用相位信息,因此仅考虑幅度| Xm [k] |。

声谱图显示了语音信号的短时傅立叶分析结果的2D图对数幅度(或对数功率)。 横轴表示帧索引(以10 ms为单位),纵轴表示从0 Hz到奈奎斯特频率的频率轴,其采样率为一半。 例如,上图显示原始波形“speech recognition is cool stuff”的频谱图。 在频谱图中,高能区显示为橙色和红色。

二、Mel滤波器

从频谱图中可以看到,高频处的高能量区域(图的上部)大致对应于未发声的辅音,而低频处的高能量区域大致对应于浊音的元音。 还会注意到浊音区域中的水平线表示语音的谐波结构。

为了消除由浊音区域中的谐波结构和清音区域中的随机噪声引起的频谱图中的可变性,我们对幅度频谱执行频谱平滑操作。 我们应用一个由听觉系统完成的处理所激发的过滤器组。 该滤波器组将近似对数比例应用于频率轴。 即,随着频率的增加,滤波器变得更宽,更远。 用于特征提取的最常见的滤波器组称为mel滤波器组。 这里显示了一个由40个过滤器组成的梅尔过滤器组。 每个滤波器将对不同频率范围内的功率谱图求平均。

1c62f69e49ae312f0675006c3da55b89.png

注意,过滤器在图的左侧尺寸上狭窄且紧密间隔,而在图的右侧则较宽且距离较远。

通常将梅尔滤波器组表示为矩阵,其中每一行对应于滤波器组中的一个滤波器。因此,可以从幅度谱计算P维梅尔滤波器组系数为

31b918c7618829b94cfa6722df8413fd.png

长度为40的梅尔滤波器组是典型的,尽管现有系统的数量很少或更多。较少的结果会导致更​​多的平滑,而更多的结果会导致更​​少的平滑。


Mel滤波器介绍:

声谱图往往是很大的一张图,为了得到合适大小的声音特征,往往把它通过梅尔标度滤波器组(mel-scale filter banks),变换为梅尔频谱。什么是梅尔滤波器组呢?这里要从梅尔标度(mel scale)说起。

梅尔标度,the mel scale,由Stevens,Volkmann和Newman在1937年命名。我们知道,频率的单位是赫兹(Hz),人耳能听到的频率范围是20-20000Hz,但人耳对Hz这种标度单位并不是线性感知关系。例如如果我们适应了1000Hz的音调,如果把音调频率提高到2000Hz,我们的耳朵只能觉察到频率提高了一点点,根本察觉不到频率提高了一倍。如果将普通的频率标度转化为梅尔频率标度,映射关系如下式所示:

3647e01af77fa73bbd78633d40cb4253.png

9d41fdcd644bfa3d5454beeded69351d.png


则人耳对频率的感知度就成了线性关系。也就是说,在梅尔标度下,如果两段语音的梅尔频率相差两倍,则人耳可以感知到的音调大概也相差两倍。
让我们观察一下从Hz到mel的映射图,由于它们是log的关系,当频率较小时,mel随Hz变化较快;当频率很大时,mel的上升很缓慢,曲线的斜率很小。这说明了人耳对低频音调的感知较灵敏,在高频时人耳是很迟钝的,梅尔标度滤波器组启发于此。

d7fc6c007a2ac5ee0d49ac65af7022be.png


如上图所示,40个三角滤波器组成滤波器组,低频处滤波器密集,门限值大,高频处滤波器稀疏,门限值低。恰好对应了频率越高人耳越迟钝这一客观规律。上图所示的滤波器形式叫做等面积梅尔滤波器(Mel-filter bank with same bank area),在人声领域(语音识别,说话人辨认)等领域应用广泛,但是如果用到非人声领域,就会丢掉很多高频信息。这时我们更喜欢的或许是等高梅尔滤波器(Mel-filter bank with same bank height):

7f8acb5d5729a522738c4dca7d78ad05.png

参考:https://blog.csdn.net/qq_28006327/article/details/59129110

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值