论文笔记

最新推荐文章于 2024-03-14 08:30:00 发布

caspesjpe

最新推荐文章于 2024-03-14 08:30:00 发布

阅读量404

点赞数

分类专栏：语音识别深度卷积时-频谱图特征

本文链接：https://blog.csdn.net/caspesjpe/article/details/109174165

版权

论文探讨了深度卷积神经网络（CNN）在语音识别中的应用，包括基于CNN-HMM的声学建模和时-频谱特征提取。实验表明，相比于GMM-HMM和DNN-HMM，2层CNN-HMM在音素误识率上有显著降低。同时，通过深度CNN提取的时-频谱特征也提高了识别性能。未来研究方向包括改进特征提取网络、融合LSTM网络以及构建端到端的语音识别系统。

摘要由CSDN通过智能技术生成

论文笔记 ---- （2017）基于卷积神经网络的语音识别研究

论文题目：基于卷积神经网络的语音识别研究
论文作者：梅俊杰

摘要

从语音识别基本原理出发，以声学模型和声学特征为切入点，主要研究了深度卷积神经网络在语音识别任务中的应用：（1）研究了基于深度卷积神经网络的声学建模，本文从模型结构、训练算法等方面深入对比分析了ＤｅｅｐＣＮＮ、ＤＮＮ以及ＧＭＭ在声学建模中的应用，阐述了ＣＮＮ，用于描述ＨＭＭ状态输出概率分布的可行性，着重研究了不同网络深度下ＣＮＮ的性能表现。研究了2层卷积的CNN-HMM声学模型和6层卷积的CNN-HMM模型。（2）究了基于深度卷积神经网络的时－频谱特征提取，从语谱的物理意义出发，提出了基于ＤｅｅｐＣＮＮ的多帧并联的时－频谱特征提取方法。
本文实验平台：应用ＣＮＴＫ和Ｋａｌｄｉ开源语音识别平台，用ＣＮＴＫ设计了相应的网络结构，通过Ｋａｌｄｉ开源语音识别平台在８５０人实验数据集上进行实验。

介绍

随着DNN的成功应用，为了进一步提升了语音识别水平，各种不同结构的深度学习模型相继提出。这些模型主要分为两类，一类是循环神经网络（ＲＮＮ）以及它的变种长短时记忆单元（ＬＳＴＭ），另一类是卷积神经网络（ＣＮＮ）。Ａｂｄｅｌ－Ｈａｍｉｄ等人利用卷积神经网络对输入特征进行频率域一维卷积，在ＴＩＭＩＴ数据集上取得了相较于深度神经网络有１０％的提升。２０１３年ＩＢＭ的ＴａｒａＮ．Ｓａｉｎaｔｈ等人在时间和频率域对输入特征进行二维卷积操作，在ＢｒｏａｄｃａｓｔＮｅｗｓ和Ｓｗｉｔｃｈｂｏａｒｄｔａｓｋ任务上相较深度神经网络获得了１３－３０％和４－１２％的提升。
从网络结构上来看，ＣＮＮ特殊的网络结构使得它能够对输入的语音特征进行局部信息抽取，再通过池化层下采样操作增强其对输入特征在频率和时间域上平移的不变性，这大大增强了模型的鲁棒性。ＣＮＮ作为一种深层模型，它能够对语音特征数据的空间分布进行有效的建模，用于输出ＨＭＭ状态的后验概率。相比较传统的ＤＮＮ直接将特征各维全连接到每一个神经元，ＣＮＮ局部连接到输入的某一区域有着更为合理的物理意义，同时也使得整个模型的复杂度变低。

研究内容：从声学模型和声学特征两个角度出发，研宄了深度卷积神经网络在语音识别中的应用。
（１）基于深度卷积神经网络的声学模型构建（不同网络深度下CNN性能）
（２）基于深度卷积神经网络的时－频谱特征提取（提出了多帧并联构造的短时时－频谱作为语音识别系统的输入）

语音识别基础

语音特征提取

语音信号预处理：预加重、分帧加窗。
预加重：语音信号自声门发出后会有１２ｄＢ／倍频程的衰减，在通过口腔辐射后还有６ｄＢ／倍频程的衰减［１７］。为了使信号频谱变得平坦，一般要进行预加重处理，以６ｄＢ／倍频程提升高频部分。通常采用一个一阶高通数字滤波器来实现。
分帧加窗：分帧采用重叠分段的方法进行，该方法使得各个语音帧之间能够实现平滑的过渡，保证它们在时间上的连续性。每一帧的长度大约在１０-３０ｍｓ之间，帧与帧之间重合的部分被称为帧移，帧移的长度大约为帧长的一半左右。具体操作是通过长度有限的可移动的窗（汉明窗或矩形窗）与语音信号进行加权来实现的。汉明窗能够有效的改善因截断效应造成的频谱泄露。其窗函数如下：
语音信号特征及提取
有代表性的声学特征，主要分为两大类，一类是基于人耳听觉感知特性构造的特征，另一类是基于人类发声机理构造的特征，其中最具代表性的分别是美尔频率倒谱系数（ＭＦＣＣ［１８］）和感知线性预测（ＰＬＰ［１９］）。
以MFCC为例，经过MFCC的一系列可以将一帧语音信号用一个多维的MFCC向量表征。一般在完成语音信号特征提取过后，还需要对它们做一些额外的处理。主要的处理方法有：ＣＭＶＮ、ＶＴＬＮ等。语音信号中的噪声主要来源于环境中的加性噪声和传输信道中的卷积噪声，ＣＭＶＮ操作能够有效的降低这些噪声带来的影响，减少听觉上的失真；ＶＴＬＮ操作可以将不同说话人的声道长度归一化，以使得不同发音人发出语音的语音谱分布尽可能相似。

声学模型
声学模型主要用于描述语音建模单元也即

最低0.47元/天解锁文章

caspesjpe

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
论文笔记

论文笔记 ---- （2017）基于卷积神经网络的语音识别研究论文题目：基于卷积神经网络的语音识别研究论文作者：梅俊杰摘要从语音识别基本原理出发，以声学模型和声学特征为切入点，主要研究了深度卷积神经网络在语音识别任务中的应用：（1）研究了基于深度卷积神经网络的声学建模，本文从模型结构、训练算法等方面深入对比分析了ＤｅｅｐＣＮＮ、ＤＮＮ以及ＧＭＭ在声学建模中的应用，阐述了ＣＮＮ，用于描述ＨＭＭ状态输出概率分布的可行性，着重研究了不同网络深度下ＣＮＮ的性能表现。研究了2层卷积的CNN-HMM声学模型和6
复制链接

扫一扫

专栏目录