浅谈MFCC

最新推荐文章于 2025-03-12 21:53:29 发布

fengzhonghen

最新推荐文章于 2025-03-12 21:53:29 发布

阅读量6w

点赞数 18

分类专栏：语音识别文章标签： mfcc 特征提取语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fengzhonghen/article/details/51722555

版权

MFCC是梅尔频率倒谱系数，用于语音特征提取。主要包括预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组、离散余弦变换和动态差分参数提取等步骤。预加重提升高频，分帧便于分析，加窗减少不连续性，快速傅里叶变换和梅尔滤波器组降低维数，离散余弦变换进一步压缩特征，动态差分参数捕获语音动态特性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。例如：对于一帧有512维(采样点)数据，经过MFCC后可以提取出最重要的40维(一般而言)数据同时也达到了将维的目的。

MFCC一般会经过这么几个步骤：预加重，分帧，加窗，快速傅里叶变换(FFT)，梅尔滤波器组，离散余弦变换(DCT).其中最重要的就是FFT和梅尔滤波器组，这两个进行了主要的将维操作。

1.预加重

将经采样后的数字语音信号s(n)通过一个高通滤波器(high pass filter)：

其中a一般取0.95左右。

经过预加重后的信号为：

预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

2.分帧

为了方便对语音分析，

最低0.47元/天解锁文章

评论 17

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。