摘要
我们提出了SpecAugment,这是一种用于语音识别的简单数据增强方法。SpecAugment直接应用于神经网络的特征输入(即滤波器组系数)。增强策略包括对特征进行变形、遮蔽频道块和遮蔽时间步块。我们在端到端语音识别任务中将SpecAugment应用于Listen、Attend和Spell网络。我们在LibriSpeech 960h和Swichboard 300h任务上实现了最先进的性能,胜过了所有先前的工作。在LibriSpeech上,我们在测试集test-other上实现了6.8%的词错误率(WER),没有使用语言模型,通过与语言模型进行浅层融合,WER为5.8%。这与先前最先进的混合系统7.5%的WER相比。对于Switchboard,我们在Hub5'00测试集的Switchboard/CallHome部分上实现了7.2%/14.6%的WER,没有使用语言模型,在进行浅层融合后为6.8%/14.1%,这与先前最先进的混合系统8.3%/17.3%的WER相比。
1.引言
深度学习已成功应用于自动语音识别(ASR)[1],研究的主要重点是设计更好的网络架构,例如DNNs [2]、CNNs [3]、RNNs [4]和端到端模型 [5, 6, 7]。然而,这些模型往往容易过拟合,需要大量的训练数据 [8]。
数据增强已被提出作为生成额外训练数据用于ASR的方法。例如,在[9, 10]中,为低资源语音识别任务增强了人工数据。声道长度归一化已在[11]中用于数据增强。在[12]中,通过将清晰音频与嘈杂音频信号叠加合成嘈杂音频。在[13]中,对原始音频进行速度扰动用于LVSCR任务。在[14]中,探讨了声学房间模拟器的使用。在[15, 16]中研究了关键词检测的数据增强。在训练多流ASR系统时采用了特征丢失 [17]。更一般地,学习的增强技术探索了不同的增强转换序列,在图像领域取得了最先进的性能 [18]。
受到语音和视觉领域增强技术最近取得的成功的启发,我们提出了SpecAugment,这是一种对输入音频的log mel频谱图进行操作的增强方法,而不是直接对原始音频进行操作。这种方法简单且计算成本低,因为它直接作用于log mel频谱图,就像处理图像一样,并且不需要额外的数据。因此,我们能够在训练过程中在线应用SpecAugment。SpecAugment包括对log mel频谱图的三种变形。第一种是时间扭曲,即在时间方向对时间序列进行变形。另外两种增强方法受到计算机视觉[19]领域中提出的“Cutout”启发,分别是时间遮罩和频率遮罩,其中我们遮蔽一块连续的时间步长或mel频率通道。
这种方法虽然基础,但非常有效,使我们能够训练端到端的自动语音识别网络,称为Listen Attend and Spell (LAS)[6],超越更复杂的混合系统,在LibriSpeech上取得最先进的结果,甚至在没有使用语言模型(LMs)的情况下也能做到。在LibriSpeech上[20],我们在测试干净集上实现了2.8%的词错误率(WER),在测试其他集上实现了6.8%的WER,而没有使用LM。通过与在LibriSpeech LM语料库上训练的LM进行浅融合[21],我们能够提高性能(在测试干净集上的WER为2.5%,在测试其他集上的WER为5.8%),相对于测试其他集,我们的性能提高了22%。在Switchboard 300h(LDC97S62)[22]上,我们在Hub5’00(LDC2002S09、LDC2003T02)测试集的Switchboard部分获得了7.2%的WER,在CallHome部