mfcc学习记录

最新推荐文章于 2024-04-20 16:26:21 发布

ch977

最新推荐文章于 2024-04-20 16:26:21 发布

阅读量3.8k

点赞数

本文链接：https://blog.csdn.net/ch977/article/details/30974813

版权

MFCC（梅尔频率倒谱系数）常用于语音识别，它通过模拟人耳听觉特性将Hz频率转换为Mel频率。提取流程包括预滤波、预加重、分帧、加窗、FFT、三角窗滤波、对数运算、DCT、谱加权、倒谱均值减和差分参数计算。MFCC的维度通常为12、13或39维，涉及语音的能量和动态特性。

摘要由CSDN通过智能技术生成

http://www.douban.com/note/324336892/

这个地方对mfcc各步骤有精简的讲解，关键是从原理上说明白了一些步骤。特复制之：

一，、概述

MFCC：Mel频率倒谱系数（Mel Frequency Cepstrum Coefficient，MFCC）的缩写。Mel（美尔）是主观音高的单位，而Hz（赫兹）则是客观音高的单位。Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。

二、应用

MFCC已经广泛地应用在语音识别领域。由于Mel频率与Hz频率之间非线性的对应关系，使得MFCC随着频率的提高，其计算精度随之下降。因此，在应用中常常只使用低频MFCC，而丢弃中高频MFCC。

三、提取流程

MFCC参数的提取包括以下几个步骤：
 预滤波：CODEC前端带宽为300-3400Hz的抗混叠滤波器。
 A/D变换：8kHz的采样频率，12bit的线性量化精度。
 预加重：通过一个一阶有限激励响应高通滤波器，使信号的频谱变得平坦，不易受到有限字长效应的影响。
 分帧：根据语音的短时平稳特性，语音可以以帧为单位进行处理，实验中选取的语音帧长为32ms，帧叠为16ms。
 加窗：采用哈明