![73f2fe57e617b7ec1c7bccabe164bfb7.gif](https://i-blog.csdnimg.cn/blog_migrate/f4988fac85ae26daa14076c49b16b119.gif)
在一个技术群中,聊到语音特征话题,看到一位大佬说:如果我来面试,会让求职者先讲十分钟的语音特征。看到这句话后,我一愣,如果让我讲十分钟的语音特征,我只会想到,MFCC,Bark谱,短时过零率,基频,共振峰,能量,其它也一下想不起来了。觉得自己作为一个信号出身,做语音的人,应该懂很多才行,结果也不是很在行。为此,在本文记录语音特征。
1、MFCC
MFCC,即梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients)。是一种非线性映射,根据人耳对不同频率的声波有不同的听觉敏感度进行映射的。
原理:根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200HZ到5000HZ对语音的清晰度影响最大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的成分,使其变得不易察觉,这种现象称为 掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽临界带宽较高频要小。所以从低频到高频这一频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。