SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

最新推荐文章于 2024-08-18 10:32:01 发布

蔡栖月

最新推荐文章于 2024-08-18 10:32:01 发布

阅读量1.4k

点赞数 27

文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/ggqyh/article/details/136611582

版权

本文提出了一种名为SpecAugment的数据增强方法，针对语音识别任务，通过对logmel频谱图进行变形和遮蔽，显著提升了端到端LAS网络在LibriSpeech和Switchboard任务上的性能，甚至在无语言模型的情况下也超越了混合系统。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

我们提出了SpecAugment，这是一种用于语音识别的简单数据增强方法。SpecAugment直接应用于神经网络的特征输入（即滤波器组系数）。增强策略包括对特征进行变形、遮蔽频道块和遮蔽时间步块。我们在端到端语音识别任务中将SpecAugment应用于Listen、Attend和Spell网络。我们在LibriSpeech 960h和Swichboard 300h任务上实现了最先进的性能，胜过了所有先前的工作。在LibriSpeech上，我们在测试集test-other上实现了6.8%的词错误率（WER），没有使用语言模型，通过与语言模型进行浅层融合，WER为5.8%。这与先前最先进的混合系统7.5%的WER相比。对于Switchboard，我们在Hub5'00测试集的Switchboard/CallHome部分上实现了7.2%/14.6%的WER，没有使用语言模型，在进行浅层融合后为6.8%/14.1%，这与先前最先进的混合系统8.3%/17.3%的WER相比。

1.引言

深度学习已成功应用于自动语音识别（ASR）[1]，研究的主要重点是设计更好的网络架构，例如DNNs [2]、CNNs [3]、RNNs [4]和端到端模型 [5, 6, 7]。然而，这些模型往往容易过拟合，需要大量的训练数据 [8]。

数据增强已被提出作为生成额外训练数据用于ASR的方法。例如，在[9, 10]中，为低资源语音识别任务增强了人工数据。声道长度归一化已在[11]中用于数据增强。在[12]中，通过将清晰音频与嘈杂音频信号叠加合成嘈杂音频。在[13]中，对原始音频进行速度扰动用于LVSCR任务。在[14]中，探讨了声学房间模拟器的使用。在[15, 16]中研究了关键词检测的数据增强。在训练多流ASR系统时采用了特征丢失 [17]。更一般地，学习的增强技术探索了不同的增强转换序列，在图像领域取得了最先进的性能 [18]。

受到语音和视觉领域增强技术最近取得的成功的启发，我们提出了SpecAugment，这是一种对输入音频的log mel频谱图进行操作的增强方法，而不是直接对原始音频进行操作。这种方法简单且计算成本低，因为它直接作用于log mel频谱图，就像处理图像一样，并且不需要额外的数据。因此，我们能够在训练过程中在线应用SpecAugment。SpecAugment包括对log mel频谱图的三种变形。第一种是时间扭曲，即在时间方向对时间序列进行变形。另外两种增强方法受到计算机视觉[19]领域中提出的“Cutout”启发，分别是时间遮罩和频率遮罩，其中我们遮蔽一块连续的时间步长或mel频率通道。

这种方法虽然基础，但非常有效，使我们能够训练端到端的自动语音识别网络，称为Listen Attend and Spell (LAS)[6]，超越更复杂的混合系统，在LibriSpeech上取得最先进的结果，甚至在没有使用语言模型（LMs）的情况下也能做到。在LibriSpeech上[20]，我们在测试干净集上实现了2.8%的词错误率（WER），在测试其他集上实现了6.8%的WER，而没有使用LM。通过与在LibriSpeech LM语料库上训练的LM进行浅融合[21]，我们能够提高性能（在测试干净集上的WER为2.5%，在测试其他集上的WER为5.8%），相对于测试其他集，我们的性能提高了22%。在Switchboard 300h（LDC97S62）[22]上，我们在Hub5’00（LDC2002S09、LDC2003T02）测试集的Switchboard部分获得了7.2%的WER，在CallHome部

最低0.47元/天解锁文章