语音信号的梅尔频率倒谱系数(MFCC)的原理讲解及python实现

LLand520

于 2019-09-27 09:23:17 发布

阅读量4.7k

点赞数 4

文章标签：编程程序员 Python

本文链接：https://blog.csdn.net/LLand520/article/details/101511731

版权

本文详细介绍了梅尔频率倒谱系数（MFCC）的原理，包括梅尔尺度和临界带理论，以及人耳听觉特性。通过多个步骤展示了MFCC的计算过程，包括信号预处理、加窗、FFT、能量谱计算、使用Mel滤波器组、取对数、DCT变换和均值归一化。同时提供了Python实现MFCC的代码示例，并用librosa库演示了MFCC特征的提取和绘制梅尔频谱图。

摘要由CSDN通过智能技术生成

梅尔倒谱系数（MFCC）
　　梅尔倒谱系数（Mel-scale FrequencyCepstral Coefficients，简称MFCC）。依据人的听觉实验结果来分析语音的频谱，

MFCC分析依据的听觉机理有两个

第一Mel scale：人耳感知的声音频率和声音的实际频率并不是线性的，有下面公式

fmel=2595∗log10(1+f700)

f=700(10fmel/2595−1)

式中fmel是以梅尔(Mel)为单位的感知频域（简称梅尔频域），f是以Hz为单位的实际语音频率。fmel与f的关系曲线如下图所示，若能将语音信号的频域变换为感知频域中，能更好的模拟听觉过程的处理。
在这里插入图片描述

第二临界带（Critical Band）：把进入人耳的声音频率用临界带进行划分，将语音在频域上就被划分成一系列的频率群，组成了滤波器组，即Mel滤波器组。

研究表明，人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响较大。两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象称为掩蔽效应。

由于频率较低的声音（低音）在内耳蜗基底膜上行波传递距离大于频率较高的声音（高音），因此低音容易掩蔽高音。低音掩蔽的临界带宽较高频要小。所以，人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征，对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成果。因此，这种参数比基于声道模型的LPCC相比具有更好的鲁棒性，更符合人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能。

求MFCC的步骤

将信号帧化为短帧
对于每个帧，计算每帧语音的功率谱（周期图估计）
将mel滤波器组应用于功率谱，求滤波器组的能量，将每个滤波器中的能量相加
取所有滤波器组能量的对数
DCT变换

MFCC的提取过程
在这里插入图片描述
预处理
预处理包括预加重、分帧、加窗函数。假设我们的语音信号采样频率为8000Hz，语音数据在这里获取