论文笔记 ---- (2017)基于卷积神经网络的语音识别研究
论文题目:基于卷积神经网络的语音识别研究
论文作者:梅俊杰
摘要
从语音识别基本原理出发,以声学模型和声学特征为切入点,主要研究了深度卷积神经网络在语音识别任务中的应用:(1)研究了基于深度卷积神经网络的声学建模,本文从模型结构、训练算法等方面深入对比分析了DeepCNN、DNN以及GMM在声学建模中的应用,阐述了CNN,用于描述HMM状态输出概率分布的可行性,着重研究了不同网络深度下CNN的性能表现。研究了2层卷积的CNN-HMM声学模型和6层卷积的CNN-HMM模型。(2)究了基于深度卷积神经网络的时-频谱特征提取,从语谱的物理意义出发,提出了基于DeepCNN的多帧并联的时-频谱特征提取方法 。
本文实验平台:应用CNTK和Kaldi开源语音识别平台,用CNTK设计了相应的网络结构,通过Kaldi开源语音识别平台在850人实验数据集上进行实验。
介绍
随着DNN的成功应用,为了进一步提升了语音识别水平,各种不同结构的深度学习模型相继提出。这些模型主要分为两类,一类是循环神经网络(RNN)以及它的变种长短时记忆单元(LSTM),另一类是卷积神经网络(CNN)。Abdel-Hamid等人利用卷积神经网络对输入特征进行频率域一维卷积,在TIMIT数据集上取得了相较于深度神经网络有10%的提升。2013年IBM的TaraN.Sainath等人在时间和频率域对输入特征进行二维卷积操作,在Broadcast News和Switchboard task任务上相较深度神经网络获得了13-30%和4-12%的提升。
从网络结构上来看,CNN特殊的网络结构使得它能够对输入的语音特征进行局部信息抽取,再通过池化层下采样操作增强其对输入特征在频率和时间域上平移的不变性,这大大增强了模型的鲁棒性。CNN作为一种深层模型,它能够对语音特征数据的空间分布进行有效的建模,用于输出HMM状态的后验概率。相比较传统的DNN直接将特征各维全连接到每一个神经元,CNN局部连接到输入的某一区域有着更为合理的物理意义,同时也使得整个模型的复杂度变低。
- 研究内容:从声学模型和声学特征两个角度出发,研宄了深度卷积神经网络在语音识别中的应用。
(1)基于深度卷积神经网络的声学模型构建(不同网络深度下CNN性能)
(2)基于深度卷积神经网络的时-频谱特征提取(提出了多帧并联构造的短时时-频谱作为语音识别系统的输入)
语音识别基础
- 语音特征提取
- 语音信号预处理:预加重、分帧加窗。
预加重:语音信号自声门发出后会有12dB/倍频程的衰减,在通过口腔辐射后还有6dB/倍频程的衰减[17]。为了使信号频谱变得平坦,一般要进行预加重处理,以6dB/倍频程提升高频部分。通常采用一个一阶高通数字滤波器来实现。
分帧加窗:分帧采用重叠分段的方法进行,该方法使得各个语音帧之间能够实现平滑的过渡,保证它们在时间上的连续性。每一帧的长度大约在10-30ms之间,帧与帧之间重合的部分被称为帧移,帧移的长度大约为帧长的一半左右。具体操作是通过长度有限的可移动的窗(汉明窗或矩形窗)与语音信号进行加权来实现的。汉明窗能够有效的改善因截断效应造成的频谱泄露。其窗函数如下: - 语音信号特征及提取
有代表性的声学特征,主要分为两大类,一类是基于人耳听觉感知特性构造的特征,另一类是基于人类发声机理构造的特征,其中最具代表性的分别是美尔频率倒谱系数(MFCC[18])和感知线性预测(PLP[19])。
以MFCC为例,经过MFCC的一系列可以将一帧语音信号用一个多维的MFCC向量表征。一般在完成语音信号特征提取过后,还需要对它们做一些额外的处理。主要的处理方法有:CMVN、VTLN等。语音信号中的噪声主要来源于环境中的加性噪声和传输信道中的卷积噪声,CMVN操作能够有效的降低这些噪声带来的影响,减少听觉上的失真;VTLN操作可以将不同说话人的声道长度归一化,以使得不同发音人发出语音的语音谱分布尽可能相似。
- 声学模型
声学模型主要用于描述语音建模单元也即HMM状态与语音特征之间的对应关系,通过声学模型可以计算某段语音特征序列所属各个建模单元的概率并在最大似然准则下生成相应的状态序列。声学模型发展:从最初简单的模板匹配到动态时间规整(DTW)再到矢量量化(VQ),再到后来的隐马尔可夫以及目前正在积极探索的端到端序列建模。
- GMM-HMM声学建模