mfcc提取

最新推荐文章于 2024-06-05 21:39:39 发布

大鱼不做程序猿

最新推荐文章于 2024-06-05 21:39:39 发布

阅读量658

点赞数 1

分类专栏：语音文章标签：深度学习 python 神经网络

本文链接：https://blog.csdn.net/qq_40703471/article/details/114437145

版权

MFCC提取

在这里插入图片描述

预处理包括：预加重，分帧加窗等操作。

在大多数情况下，语音信号是非平稳的，对整个信号进行傅里叶变换是没有意义的，因此我们会随着时间的推移丢失信号的频率轮廓。
语音信号是短时平稳信号，因此我们在短时帧上进行傅里叶变换，通过连接相邻帧来获得信号频率轮廓的良好近似。
一般帧长frame_size = 0.025，也就是8khz信号的帧长度为0.025*8000=200个采样点。帧移通常为frame_stride=0.01，（80个采样点）。为了避免相邻两帧变化过大，因此会让两个相邻帧之间有一段重叠。

在得到f-bank的基础上，进行离散余弦变换（DCT）即可得到MFCC。通常，对于自动语音识别，保留所得到的的倒谱系数2-13，其余部分被丢弃。丢弃其它系数的原因是他们代表了滤波器组系数的快速变化，并且这些精细的细节对自动语音识别没有贡献。

mfcc = dct(filter_banks, type=2, axis=1, norm='ortho')[:, 1 : (num_ceps + 1)] # 保持在2-13，num_ceps=12

关注