Fully Convolutional Speech Recognition

Abstract

当前最先进的语音识别系统建立在rnn上,用于声学和/或语言建模,并依靠特征提取管道来提取梅尔滤波器组或倒频谱系数。 在本文中,我们提出了一种仅基于卷积神经网络的替代方法,它利用了原始波形和语言建模在声学模型方面的最新进展。 对这种完全卷积的方法进行了端到端的训练,以预测原始波形中的字符,从而完全消除了特征提取步骤。 外部卷积语言模型用于解码单词。 在《华尔街日报》上,我们的模型与当前的最新技术相匹配。 在Librispeech上,我们报告了端到端模型(包括Deep Speech 2)中的最新性能,该模型接受了12倍以上的声学数据和明显更多的语言数据训练。

1. Introduction

卷积神经网络体系结构的最新研究表明,即使在对远程依赖性建模至关重要的任务上,例如语言建模[1],机器翻译[2、3]和语音合成[4],它们在循环体系结构方面也具有竞争力。 然而,在端到端语音识别中,递归神经网络在声学和/或语言建模中仍然很流行[5、6、7、8、9]。
在语音识别中有使用卷积网络的历史,但仅作为其他传统管道的一部分。 它们首先作为TDNN引入,以预测音素类别[10],后来又生成HMM后缀[11]。 它们最近已用于端到端系统,但仅与循环层[7]或n-gram语言模型[12]或电话识别[13、14]结合使用。 当从原始波形[15、16、17、14、18]中学习时,卷积架构很普遍,因为它们从本质上模拟了诸如mel-filterbank之类的标准特征的计算。 鉴于有证据表明卷积网络也适用于远程依赖任务,我们希望它们在语音识别管道的所有级别上都具有竞争力。
在本文中,我们提出了一种完全卷积的端到端语音识别方法。 基于语音[14、18],卷积声学模型[12]和卷积语言模型[1]的卷积可学习前端的最新进展,我们的模型是一个深度卷积网络,它将原始波形作为输入并 经过端到端的培训以预测字母。 然后使用带有卷积语言模型的波束搜索解码来预测句子。
除了介绍卷积语言模型在语音识别中的首次应用外,本文的主要贡献是表明全卷积架构可实现端到端系统中的最新性能。 。 因此,我们的结果挑战了语音识别的递归体系结构的普遍性,并且与卷积架构与递归体系结构相当的其他应用领域的先前结果相平行。
更准确地说,我们对《华尔街日报》数据集(WSJ)的大型语音任务和1000h Librispeech进行了实验。 我们的总体流程改进了两个数据集上最新的端到端系统。 尤其是,与DeepSpeech 2 [7]和最佳序列到序列模型[9]相比,我们在嘈杂的Librispeech测试集上将词错误率降低了2%(绝对值)。 与最佳的端到端系统相比,在语音干净的情况下,Librispeech的性能提高约0.5%。 在《华尔街日报》上,我们的研究结果与当前最先进的DNN-HMM系统[19]相比具有竞争力。
特别是,详细的结果表明,卷积语言模型比4克语言模型具有更好的困惑性和更大的接收范围,因此可以产生系统且一致的改进。 此外,我们补充了[18]关于学习语音识别系统前端性能的有希望的结果:首先,我们表明,与mel-filterbanks前端相比,学习前端在嘈杂语音方面产生了实质性的改进, 结束。 其次,通过改变可学习的前端中的过滤器数量,我们在WSJ和Librispeech上均显示出其他改进,从而导致在Librispeech嘈杂的测试集上WER绝对降低了1.5%。 我们的结果是首次在原始波形上训练的端到端系统在两个数据集上达到了最先进的性能(在所有端到端系统中)。

2. Model

本节中描述的方法如图1所示。
在这里插入图片描述

2.1. Convolutional Front-end

已经提出了一些学习语音识别系统前端的建议[16、17、14、18]。 按

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值