语音特征提取技术——MFCC

最新推荐文章于 2022-07-05 21:12:40 发布

张运祝

最新推荐文章于 2022-07-05 21:12:40 发布

阅读量1k

点赞数

文章标签：信号处理

本文链接：https://blog.csdn.net/QLBB14543/article/details/105278612

版权

本文介绍了语音特征提取技术MFCC的详细计算过程，包括输入样本音频的预加重、分帧加窗、傅里叶变换、功率谱计算、Mel频率滤波、Log对数能量计算、离散余弦变换等步骤，最终得到MFCC图像，常用于语音识别和说话人识别。

摘要由CSDN通过智能技术生成

语音识别和说话人识别中，常用的语音特征是基于Mel频率的倒谱系数（即MFCC）。MFCC参数是将人耳的听觉感知特性和语音的产生机制相结合。
人的发声由很多部位共同影响的结果，如嘴形、牙齿等因素，这种形状可以决定声音的输出。如果我们可以精确的确定形状，那么我们就可以对发出的因素进行科学的表示。

MFCC倒谱系数计算过程如下;

① 将信号进行分帧，预加重和加汉明窗处理，然后进行短时傅里叶变换并得到其频谱。
② 求出频谱平方，即能量谱，并用M个Mel带通滤波器进行滤波；由于每一个频带中分量的作用在人耳中是叠加的。因此将每个滤波器频带内的能量进行叠
加，这时第k个滤波器输出功率谱)(’
kx。
③ 将每个滤波器的输出取对数，得到相应频带的对数功率谱；并进行反离散余弦变换，得到L个MFCC系数，一般L取12~16个左右。

实现MFCC步骤：

① 输入样本音频

② 给样本音频预加重、分帧、加窗

首先，对波形图分帧。通常我们取20-40m为一帧的宽度，例如我们取40ms位一帧的宽度，对于一个44.1kHz采样的信号，一帧就包含0.040*44100=1764个采样点，帧移通常去帧宽的二分之一，也就是20ms，这样就允许没两帧之间有一半的overlap。这样一来，第一帧就是从第一个采样点到第1764个采样点，第二帧就是从第882个采样点到第2646个采样点…直到最后一个采样点，如果音频长度不能被帧数整除，在最后补0 。对于一个30s的音频文件，可以得到441