【语音识别】之梅尔频率倒谱系数（mfcc）及Python实现

最新推荐文章于 2022-05-02 22:15:55 发布

Luqiang_Shi

最新推荐文章于 2022-05-02 22:15:55 发布

阅读量5k

点赞数 6

CC 4.0 BY-SA版权

分类专栏：机器学习人工智能语音识别文章标签：语音识别 MFCC

本文链接：https://blog.csdn.net/Luqiang_Shi/article/details/91049684

本文详细介绍了梅尔频率倒谱系数（MFCC）的原理，包括mel滤波器的设计和作用，以及MFCC特征提取的过程。通过将语音信号分帧、傅里叶变换、应用mel滤波器、取对数和离散余弦变换，最终得到用于语音识别的特征。并提及了Python实现MFCC的实践。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

语音识别系统的第一步是进行特征提取，mfcc是描述短时功率谱包络的一种特征，在语音识别系统中被广泛应用。

一、mel滤波器

每一段语音信号被分为多帧，每帧信号都对应一个频谱（通过FFT变换实现），频谱表示频率与信号能量之间的关系。mel滤波器是指多个带通滤波器，在mel频率中带通滤波器的通带是等宽的，但在赫兹（Hertz）频谱内mel滤波器在低频处较密集切通带较窄，高频处较稀疏且通带较宽，旨在通过在较低频率处更具辨别性并且在较高频率处较少辨别性来模拟非线性人类耳朵对声音的感知。
赫兹频率和梅尔频率之间的关系为：
${F_{mel}} = 1125\ln (1 + f/700)$

$700\left( { {e^{F/1125}} - 1} \right)$
假设在梅尔频谱内，有 $M$ 个带通滤波器 ${H_m}\left( k \right),0 \le m < M$ ，每个带通滤波器的中心频率为 $F (m)$ 每个带通滤波器的传递函数为：
${H_m}\left( k \right) = \left\{ {\begin{matrix} {0,k < F\left( {m - 1} \right)}\\ {\frac{ {k - F\left( {m - 1} \right)}}{ {F(m) - F(m - 1)}},F(m - 1) \le k \le F(m)}\\ {\frac{ {F\left( {m + 1} \right) - k}}{ {F(m + 1) - F(m)}},F(m) \le k \le F(m + 1)}\\ {0,k > F(m + 1)} \end{matrix}} \right.$