声音特征提取--Mel梅尔频谱、梅尔倒谱系数MFCC

梅尔频谱

声音在任感官中是一维时域信号,直观上很难感受频率域的变化,FFT能将时域信号转换成频域信号,用来分析频域特征,但却缺少时域信息。通常通过短时傅里叶变换STFT,得到二维的图谱,即声谱图,包含了时域和频域的信息,这时得到的语音信号特征就称为线性频谱

但是人耳感知到的声音高低与声音的原始频率并不呈线性关系,人耳对低频声音更加敏感,低频区域的差异变化比较容易被感受,而对于高频声音的变化感知并不明显。比如10hz和110hz的声音,人耳能够明显感觉到不同,而1000hz和1100hz的声音,人耳感觉会是一样的。频域上相等距离的两对频度,对于人耳来说他们的距离不一定相等。这样的感知是非线性的。

梅尔频谱(Mel spectrogram) 是更加符合人耳的听觉特性的一种频域表示法,声音通过一组梅尔滤波器组映射到梅尔音阶上,滤波器在低频范围内分布密集,在高频范围内分布稀疏,Mel谱是非线性的。这样使得在Mel刻度上相等距离的两对频度,人耳的感知差异也是相同的,即人耳感知和梅尔尺度呈线性关系。在低频段(1000hz),梅尔刻度与正常频度几乎呈线性关系,在高频段,两者呈对数关系。

在这里插入图片描述

梅尔频率倒谱系数MFCC

一条音频信号的频谱图中峰值表示信号的主要频率成分,也叫共振峰。主要频率成分包含了声音的识别属性,在声目标识别时,我们需要找到共振峰的位置还有它们转变的过程,所以我们提取的是频谱的包络:一条连接共振峰点的平滑曲线。原始频谱则可堪称两部分组成:包络(大趋势)和频谱细节(小区域波动)。要将包络和细节分开,则需FFT(任何连续信号都可以表示为不同频率正弦波信号的的无限叠加,时域信号FFT后得到不同频率组成及振幅)

音频特征MFCC的提取过程如下

在这里插入图片描述

首先是预加重,目的是使高频部分抬升,整个信号的频谱峰值之间的差距减小。分帧、加窗、FFT部分可以看作是短时傅里叶变换STFT。FFT后信号从时域转换到频域,取绝对值得到信号幅度分布在频谱上的情况,对幅度谱计算模平方,得到能量谱分布。将能量谱通过一组梅尔滤波器组,通常用三角滤波器,得到梅尔特征。对梅尔谱取对数、然后进行离散余弦变换,对MEL谱做傅里叶变换相当于傅里叶逆变换,可以获取频率谱的低频信息。变换结果即为MFCC。

具体过程可见理解梅尔倒频谱系数MFCC

参考资料

基于深度学习的中文语音合成技术研究与实现_何东升

基于联合神经网络的水声目标识别技术研究_任晨曦

理解梅尔倒频谱系数MFCC

  • 27
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

等待整个冬天

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值