梅尔频率倒谱系数（MFCC）

爱学习的小姜

已于 2022-08-10 16:59:04 修改

阅读量4.6k

点赞数

文章标签：语音识别人工智能

于 2022-01-21 10:25:33 首次发布

本文链接：https://blog.csdn.net/m0_60116633/article/details/122615835

版权

梅尔倒谱系数（MFCC）：是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特征，它与频率的关系可用下式表示：
在这里插入图片描述
语音特征参数MFCC提取过程：

在这里插入图片描述
1、预加重：将语音信号通过一个高通滤波器：

式中u的值介于0.9-1.0之间，通常取0.97。预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。
2、分帧
先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3通常语音识别采用语音信号的采样频率为8kHz或16kHz。以8kHz来说，若帧长度为256个采样点，则对应的时间长度是256/8000*1000=32ms。
3、加窗
将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n), n=0,1,…,N-1, N为帧的大小，那么乘上汉明窗后
在这里插入图片描述
不同的a值会产生不同的汉明窗，一般情况下a取0.46。
4、快速傅里叶变换
信号在时域上的变换很难看出信号的特征，所以通常将它转化为频域上的能量分布来观察，不同的能量分布，能代表不同的语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱，并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为：
在这里插入图片描述

X(n)为输入的语音信号，N表示傅里叶变换的点数。
5、三角带通滤波器
将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组（滤波器的个数和临界带的个数相近），采用的滤波器为三角滤波器，中心频率为f(m)=1,2,…,M。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽

在这里插入图片描述

三角带通滤波器的两个目的：对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。（因此一段语音的音调或音高，是不会呈现在 MFCC 参数内，换句话说，以 MFCC 为特征的语音辨识系统，并不会受到输入语音的音调不同而有所影响）此外，还可以降低运算量。
6、计算每个滤波器组输出的对数能量

在这里插入图片描述
7、经离散余弦变换（DCT）得到MFCC系数

将上述的对数能量带入离散余弦变换，求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数，通常取12-16。M是三角滤波器个数。
8、对数能量
一帧的音量（即能量），是语音的重要特征，易于计算。因此，通常再加上一帧的对数能量（定义：一帧内信号的平方和，再取以10为底的对数值，再乘以10）使得每一帧基本的语音特征就多一维，包括一个对数能量和剩下的倒频谱参数。
注：若要加入其它语音特征以测试识别率，也可以在此阶段加入，这些常用的其它语音特征包含音高、过零率以及共振峰等。
9、动态差分参数的提取（包括一阶差分和二阶差分）
标准的倒谱参数MFCC只反映了语音参数的静态特性，语音的动态特性可以用这些静态特征的差分谱来描述。差分参数的计算可以采用下面的公式：
在这里插入图片描述
dt表示第t个一阶差分，ct表示第t个倒谱系数，Q表示倒谱系数的阶数，K表示一阶导数的时间差，可取1或2.将上式的结果再代入可得到二阶差分的参数。

在这里插入图片描述

爱学习的小姜

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
梅尔频率倒谱系数（MFCC）

梅尔倒谱系数（MFCC）：是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特征，它与频率的关系可用下式表示：语音特征参数MFCC提取过程：1、预加重：将语音信号通过一个高通滤波器：式中u的值介于0.9-1.0之间，通常取0.97。预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。2、分帧先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20~30ms左右。为了避免相邻两帧的
复制链接

扫一扫