语音特征MFCC和PLP

最新推荐文章于 2024-08-19 16:03:32 发布

RossYoung

最新推荐文章于 2024-08-19 16:03:32 发布

阅读量1w

点赞数 5

分类专栏：语音识别

语音识别专栏收录该内容

8 篇文章 3 订阅

订阅专栏

【传送门】

【自动语音识别课程】第一课统计语音识别介绍

原文地址：http://blog.csdn.net/joey_su/article/details/36414877

概述

针对ASR的语音信号分析

特征
频谱分析
倒谱分析
标准特征：MFCC和PLP分析
动态特征

第一课的结尾提到了语音识别的框图，下图展示了信号分析技术在语音识别系统中的位置：

我们先来认识下语音的产生过程：

语音是在发音器官和声道共同作用下产生的。说话时，声带振动发出具有一定周期特性（基音周期T0）的声音，通过喉，咽，鼻腔，口腔等发音器官，以及在嘴唇的摩擦作用下形成语音信号x(t)，对x(t)进行傅立叶变换，得到频谱X(Ω )，X(Ω )由共振峰（F1,F2,F3）组成。

发出的语音属于模拟信号，为了对语音信号进行分析和处理，需要进行模数转换。

采样，即把模拟信号转换为数字的形式：

语音引起空气振动，是一种声压波，用麦克风进行录制。

是经过麦克风录制后的语音信号，用一个周期为，幅度为1的冲击函数与相乘，得到，将脉冲转换为离散时间序列即得到周期为的。

其中，采样频率为，根据奈奎斯特采样定理，采样频率要大于或等于信号最高频率，实际应用中，采样频率选取如下：

需要注意的是在这里采用模拟低通滤波的作用是抗混叠。

数字化后，下一步的工作是提取语音信号的声学特征：

采样后的信号通过前处理后进行声学特征向量提取，得到声学模型。

用于语音识别的声学特征应包含以下特性：

特征应包含区分音素与音素之间的有效信息
- 良好的时间分辨率（10ms）
- 良好的频率分辨率（~20 channels）
分离基因频率以及它的谐波成分
对不同说话人具有鲁棒性
对噪音或者信道失真具有鲁棒性
有着良好的模式识别特性
- 低维特征
- 特征独立

下图为基于MFCC的前处理

原始语音信号经过A/D转换得到数字信号，经过预加重提升高频成分，接着是加窗，对加窗后的信号进行两个方面的处理，一个方面是提取倒谱特征，即经过离散傅立叶变换后，对频谱幅度进行平方，通过梅尔滤波器组，再进行对数变换，最后进行离散傅立叶变换的逆运算得到倒谱特征；另一方面是求加窗后信号的能量，将这两个方面结合起来形成动态特征，最后再进行特征变换得到声学模型。

下面对每个步骤进行分析

A/D转换在前面已经讲过了，在这里就不赘述。我们从预加重开始。

我们知道，语音是由声门激励通过系统（声道等）产生的，声门激励属于低频，所以语音的能量主要集中在低频，相对于低频来说，高频的能量较低，提升高频分量有助于提高信噪比，可采用预加重的方法，这种方法在通信系统中经常使用。

预加重（第一级）滤波器提升高频，公式如下：

下图对元音进行预加重操作：

从图中可看到，高频部分有一定的提升。

加窗

我们知道语音信号是不断改变的（非平稳），但是非平稳的信号不好处理，所以语音处理算法通常假定信号是稳定的。

分段（短时）平稳性：将语音信号看成是由一帧帧构成（假定被帧是平稳的）

加窗：在时域上，波形乘以窗函数即可得到加窗后的波形，公式为

如果我们简单地将语音信号分成很多小段，那么这些小段（帧）就是矩形窗，而矩形窗的边缘是陡峭的，即不连续的，所以应该选取边缘连续的窗函数，使得相邻两帧可以平滑过渡。

在语音处理中，通常使用锥形的窗代替矩形窗，比如汉明窗（Hamming）或者汉宁窗（Hanning），窗函数如下：

其中，为窗函数的系数，汉明窗为，汉宁窗为。

时域上的加窗效果如下：

可见锥形窗边缘部分过渡更加平滑了。

频域上的加窗效果如下：

离散傅立叶变换（DFT）

DFT的目的：从一个加窗的信号的中提取频谱信息（如在每个频带上的能量）

输入：加窗后的信号（时域）

输出：复数，表示N个频带上的第k个频率成分的幅度和相位

DFT公式：

快速傅立叶变换（FFT）：是一种计算DFT的有效算法，其中N是以2为底的指数，N>L

加窗与频谱分析

首先对语音信号x[n]加窗，加窗后的信号为，t为时域信号的时间点，m表示第m个窗，然后对每帧进行傅立叶变换，得到短时功率谱。

这个过程中，需要注意的有两点，之一是帧长，对于使用较短的帧，其具有较宽的频带，较高的时间分辨率和较低的频率分辨率，而对于较长的帧，则具有较窄的频带，较低的时间分辨率和较高的频率分辨率；另一点要注意的是为了是帧与帧之间的过渡更加平稳，采用了帧移的方法，即两帧之间有个重叠区域。

对于语音识别来说，我们选用20ms的帧长，10ms的帧移。

下图为宽带和窄带的语谱图对比：

这里有个概念叫语谱（spectrogram），实际上就是把每帧的频谱图向左旋转90度，用颜色的深浅表示幅度的大小，幅度越大颜色越深，然后把每帧的颜色信息按照时间（帧）的顺序列出来，所以，语谱的横坐标为时间（帧），纵坐标为频率，颜色为频率的幅度。

短时频谱分析

如果语谱图对我们来说还是不好理解，那么看看上图的类似广西著名景点龙脊梯田（打广告嫌疑）的三维图片。x轴，y轴已经很清楚了，那么z轴呢？由上面的语谱图可知，z轴代表频率的大小，也就是说，山越高，频率越大。

DFT频谱

上图为元音的25ms汉明窗，它的频谱由DFT计算得到。

DFT频谱特征

从前面的介绍中，我们看到频带是等间隔的，但是我们知道，人类的耳朵其实是一个超级强大的语音识别系统，我们研究语音识别时，很大程度是从人类自身来寻找答案的，从人类听觉系统上看，我们的耳朵对声音的获取是有选择性的，对于大于1000Hz的声音，人类的听觉敏感度会降低，具体为什么是1000Hz，应该是跟耳朵的生理构造有关吧。

功率谱包含F0的基频（前面讲过的），正因为这样，使得估计频谱的包络变得困难，但还是有办法的。

短时傅立叶变换的频率与频率之间是高度相关的，例如，功率谱表示高度冗余。

人类听觉

好高大上的感觉，我们再来感受下人类强大的听觉系统吧

生理	感知
强度	响度
基本频率	基音
频谱形状	音色
开合时间	时间
双耳相位差	位置

技术术语：

等响度轮廓
临界带宽
听觉滤波器（临界频带滤波器）
临界带宽

等响度轮廓

非线性频率刻度

前面提到人类的听觉系统对越高频率的敏感度越低，这就说明了人类的频率的感知是非线性的，也就是说人耳自身对声音的频率有所划分，并且这些划分的频段是非线性的（不是等间隔的）。

下面是三种非线性刻度，分别是Mel刻度和Bark刻度和ln刻度，实际语音处理中常用到Mel刻度：

实际语音处理中常用到Mel刻度。

Mel滤波器组

先贴图再说话，个人觉得一个好的图可以代替很多废话（包括这句哈哈）。

首先要明白为什么要设置Mel滤波器组。在这里，我们用到了若干个间隔不等的三角低通滤波器构成的滤波器组，由上面的介绍中我们了解到可以使用Mel刻度来代替线性的频率刻度，以满足人类的听觉特性。所以，我们需要对频率刻度的频点（Frequency bins）进行分类，分类是按顺序进行的，这个分类就需要Mel滤波器组来实现，上图一共12个三角形，所以可以理解为将一大段频点分成了12类，也就是12中Mel刻度功率谱。需要注意的是小于1000Hz的部分为线性间隔，而大于1000Hz的部分为对数间隔。

对数能量

为什么要计算对数能量呢？