梅尔频率倒谱系数（MFCC）的提取过程与C++代码实现

最新推荐文章于 2024-06-26 09:34:48 发布

-绿色小屋

最新推荐文章于 2024-06-26 09:34:48 发布

阅读量1.6w

点赞数 9

分类专栏：数字信号处理文章标签：语音识别 MFCC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xiao13Yu14/article/details/46991581

版权

本文详细介绍了MFCC（梅尔频率倒谱系数）的提取过程，包括预加重、分帧、加窗、补零、FFT变换、梅尔滤波、对数运算、DCT变换和归一化等步骤，并提供了C++代码实现。MFCC常用于语音识别等领域。

摘要由CSDN通过智能技术生成

MFCC参数提取步骤

——>预加重

——>分帧

——>对每一帧加窗

——>对每一帧补零

——>各帧信号的FFT变换及其功率谱

——>梅尔滤波（通过40个滤波器）

——>取对数

——>DCT变换

——>归一化

1.预加重

如果数据在低频的强度大于高频，就会不利于处理，因此需要通过一个传递函数为s[n]-a*s[n]的高通滤波器。滤去数据中的低频成分，使高频特性更加突现。

2.分帧

分帧就是将N个采样点集合成一个观测单位。我们设定每帧涵盖的时间是25ms，因为采样率是16000，所以得到每帧的样本点个数是400。

另外，为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域。我们设定的重叠区域是15ms，所以就是每隔10ms取一帧。

3.对每一帧加窗

分帧后马上进行FFT，由于转换时会将帧内信号当作周期信号处理，所以在帧的两个端点处会发生突变，转换出来的频谱与原信号频谱差别很大。所以要对每一帧加窗，使帧内信号作FFT时的两个端点处不会发生突变。

我们采用的窗是汉明窗：（M为帧长，即400）

4.对每一帧补零

我们要对每一帧信号进行FFT，而FFT要求输入数据长度一定是2^K，现在一帧为400个采样点，所以补零至最接近的512位。

5.各帧信号的FFT变换及其功率谱

对分帧加窗后的各帧信号进行512点的FFT变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。

6.梅尔滤波（通过40个滤波器）

40个三角滤波器在MEL谱上均匀分布，每两个滤波器间有50%的重叠部分。

所以要先把实际频率转换成梅尔频率，实际频率最小为0Hz，最大为16000 / 2 = 8000Hz

转换成梅尔频率后，我们要实现的是40个滤波器，所以计算这40个滤波器的梅尔频率分布，然后把梅尔频率转换成实际频率

最低0.47元/天解锁文章

关注

9
点赞
踩
81

收藏

觉得还不错? 一键收藏
33
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 33

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。