关于机器学习中语音信号的基本概念MFCC/Mel-Filter banks生成

最新推荐文章于 2025-03-04 19:39:48 发布

FQ_G

最新推荐文章于 2025-03-04 19:39:48 发布

阅读量8.7k

点赞数 9

分类专栏：机器学习文章标签： MFCC 倒谱频谱音频信号处理

机器学习专栏收录该内容

17 篇文章

订阅专栏

本文详细介绍了MFCC（Mel频率倒谱系数）的提取过程及其在语音识别中的应用。包括预加重、分帧、加窗等预处理步骤，以及如何通过Mel滤波器组和倒谱分析提取特征。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

内容参考：https://blog.csdn.net/zouxy09/article/details/9156785，本文内容只是方便自己下次学习，如有侵权，请联系我进行删除。

内容参考：https://blog.csdn.net/xl928471061/article/details/72896293

python代码（亲测能用）：http://haythamfayek.com/2016/04/21/speech-processing-for-machine-learning.html

Filter banks和MFCC语音特征提取，整体是相似的，MFCC只是多了一步DCT（离散余弦变换）罢了。整体过程主要包含以下步骤：

1)预加重，作用就是为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分。并且能突显

高频的共振峰。（参考博客，自己没太理解，而且不同博客有不同的解释，暂且放在这）

2)分帧，将语音信号分为帧，通常帧长=20~40ms，帧移=10ms（具体视情况而定）

3)加窗，对每帧信号加一个hamming/hanning窗，使每帧信号两端衰减至接近0

4)STFT，得到向量特征，并将能量（幅值）谱转化为功率谱（通过平方）

5)Mel滤波，通过Mel滤波器组进行滤波，以得到符合人耳听觉习惯的声谱，最后通常取对数将单位转换成db

6)DCT，离散余弦变换，得到倒谱系数，也就是MFCC，通常保留1~13维，然后可以加上delta，delat-delta，和每帧能量

一、声谱图（Spectrogram）

第一个图是波形图，红色是对波形图里的语音进行分帧，每帧语音都对应于一个频谱（通过短时FFT计算），频谱表示频率与能量的关系。

频谱图有三种，即线性振幅谱、对数振幅谱、自功率谱（对数振幅谱中各谱线的振幅都作了对数计算，所以其纵坐标的单位是dB（分贝）。这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高，以便观察掩盖在低幅噪声中的周期信号）。

把上面FFT生成的频谱通过坐标表示（横坐标代表频率，纵坐标表示幅度，左图），左图旋转90度为中图，然后把这些幅度映射到一个灰度级表示（也可以理解为将连续的幅度量化为256个量化值），0表示黑，255表示白色。

将每帧进行FFT的频谱进行上述操作所得到的图连接起来，这样我们会得到一个随着时间变化的频谱图，这个就是描述语音信号的spectrogram声谱图。如下图所示：

二、倒谱分析（Cepstrum Analysis）

下面是一个语音的频谱图。峰值就表示语音的主要频率成分，我们把这些峰值称为共振峰（formants），而共振峰就是携带了声音的辨识属性（就是个人身份证一样）。所以它特别重要。用它就可以识别不同的声音。

既然它那么重要，那我们就是需要把它提取出来！我们要提取的不仅仅是共振峰的位置，还得提取它们转变的过程。所以我们提取的是频谱的包络（Spectral Envelope）。这包络就是一条连接这些共振峰点的平滑曲线。

我们可以这么理解，将原始的频谱由两部分组成：包络和频谱的细节。这里用到的是对数频谱，所以单位是dB。那现在我们需要把这两部分分离开，这样我们就可以得到包络了。H[K]为包络，E[K]为细节log X[k] = log H[k] + log E[k]

为了达到这个目标，我们需要Play a Mathematical Trick。这个Trick是什么呢？就是对频谱做FFT。在频谱上做傅里叶变换就相当于逆傅里叶变换Inverse FFT (IFFT)。需要注意的一点是，我们是在频谱的对数域上面处理的，这也属于Trick的一部分。这时候，在对数频谱上面做IFFT就相当于在一个伪频率（pseudo-frequency）坐标轴上面描述信号。

由上面这个图我们可以看到，包络是主要是低频成分（这时候需要转变思维，这时候的横轴就不要看成是频率了，咱们可以看成时间），我们把它看成是一个每秒4个周期的正弦信号。这样我们在伪坐标轴上面的4Hz的地方给它一个峰值。而频谱的细节部分主要是高频。我们把它看成是一个每秒100个周期的正弦信号。这样我们在伪坐标轴上面的100Hz的地方给它一个峰值。

把它俩叠加起来就是原来的频谱信号了。

在实际中咱们已经知道log X[k]，所以我们可以得到了x[k]。那么由图可以知道，h[k]是x[k]的低频部分，那么我们将x[k]通过一个低通滤波器就可以得到h[k]了！没错，到这里咱们就可以将它们分离开了，得到了我们想要的h[k]，也就是频谱的包络。

x[k]实际上就是倒谱Cepstrum（这个是一个新造出来的词，把频谱的单词spectrum的前面四个字母顺序倒过来就是倒谱的单词了）。而我们所关心的h[k]就是倒谱的低频部分。h[k]描述了频谱的包络，它在语音识别中被广泛用于描述特征。

那现在总结下倒谱分析，倒谱实际上是这样一个过程：

1）将原语音信号经过傅里叶变换得到频谱：X[k]=H[k]E[k]；

只考虑幅度就是：|X[k] |=|H[k]||E[k] |；

2）我们在两边取对数：log||X[k] ||= log ||H[k] ||+ log ||E[k] ||。

3）再在两边取逆傅里叶变换得到：x[k]=h[k]+e[k]。

总结下，倒谱（cepstrum）就是一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱。它的计算过程如下：

三、Mel频率分析（Mel-Frequency Analysis）

好了，到这里，我们先看看我们刚才做了什么？给我们一段语音，我们可以得到了它的频谱包络（连接所有共振峰值点的平滑曲线）了。但是，对于人类听觉感知的实验表明，人类听觉的感知只聚焦在某些特定的区域，而不是整个频谱包络。

而Mel频率分析就是基于人类听觉感知实验的。实验观测发现人耳就像一个滤波器组一样，它只关注某些特定的频率分量（人的听觉对频率是有选择性的）。也就说，它只让某些频率的信号通过，而压根就直接无视它不想感知的某些频率信号。但是这些滤波器在频率坐标轴上却不是统一分布的，在低频区域有很多的滤波器，他们分布比较密集，但在高频区域，滤波器的数目就变得比较少，分布很稀疏。