SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

本文提出了一种名为SpecAugment的数据增强方法,针对语音识别任务,通过对logmel频谱图进行变形和遮蔽,显著提升了端到端LAS网络在LibriSpeech和Switchboard任务上的性能,甚至在无语言模型的情况下也超越了混合系统。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

我们提出了SpecAugment,这是一种用于语音识别的简单数据增强方法。SpecAugment直接应用于神经网络的特征输入(即滤波器组系数)。增强策略包括对特征进行变形、遮蔽频道块和遮蔽时间步块。我们在端到端语音识别任务中将SpecAugment应用于Listen、Attend和Spell网络。我们在LibriSpeech 960h和Swichboard 300h任务上实现了最先进的性能,胜过了所有先前的工作。在LibriSpeech上,我们在测试集test-other上实现了6.8%的词错误率(WER),没有使用语言模型,通过与语言模型进行浅层融合,WER为5.8%。这与先前最先进的混合系统7.5%的WER相比。对于Switchboard,我们在Hub5'00测试集的Switchboard/CallHome部分上实现了7.2%/14.6%的WER,没有使用语言模型,在进行浅层融合后为6.8%/14.1%,这与先前最先进的混合系统8.3%/17.3%的WER相比。

1.引言

深度学习已成功应用于自动语音识别(ASR)[1],研究的主要重点是设计更好的网络架构,例如DNNs [2]、CNNs [3]、RNNs [4]和端到端模型 [5, 6, 7]。然而,这些模型往往容易过拟合,需要大量的训练数据 [8]

数据增强已被提出作为生成额外训练数据用于ASR的方法。例如,在[9, 10]中,为低资源语音识别任务增强了人工数据。声道长度归一化已在[11]中用于数据增强。在[12]中,通过将清晰音频与嘈杂音频信号叠加合成嘈杂音频。在[13]中,对原始音频进行速度扰动用于LVSCR任务。在[14]中,探讨了声学房间模拟器的使用。在[15, 16]中研究了关键词检测的数据增强。在训练多流ASR系统时采用了特征丢失 [17]。更一般地,学习的增强技术探索了不同的增强转换序列,在图像领域取得了最先进的性能 [18]

受到语音和视觉领域增强技术最近取得的成功的启发,我们提出了SpecAugment,这是一种对输入音频的log mel频谱图进行操作的增强方法,而不是直接对原始音频进行操作。这种方法简单且计算成本低,因为它直接作用于log mel频谱图,就像处理图像一样,并且不需要额外的数据。因此,我们能够在训练过程中在线应用SpecAugment。SpecAugment包括对log mel频谱图的三种变形。第一种是时间扭曲,即在时间方向对时间序列进行变形。另外两种增强方法受到计算机视觉[19]领域中提出的“Cutout”启发,分别是时间遮罩和频率遮罩,其中我们遮蔽一块连续的时间步长或mel频率通道。

这种方法虽然基础,但非常有效,使我们能够训练端到端的自动语音识别网络,称为Listen Attend and Spell (LAS)[6],超越更复杂的混合系统,在LibriSpeech上取得最先进的结果,甚至在没有使用语言模型(LMs)的情况下也能做到。在LibriSpeech上[20],我们在测试干净集上实现了2.8%的词错误率(WER),在测试其他集上实现了6.8%的WER,而没有使用LM。通过与在LibriSpeech LM语料库上训练的LM进行浅融合[21],我们能够提高性能(在测试干净集上的WER为2.5%,在测试其他集上的WER为5.8%),相对于测试其他集,我们的性能提高了22%。在Switchboard 300h(LDC97S62)[22]上,我们在Hub5’00(LDC2002S09、LDC2003T02)测试集的Switchboard部分获得了7.2%的WER,在CallHome部

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值