Self-training for end-to-end speech recognition

ABSTRACT

我们在端到端语音识别的背景下重新进行自我训练。 我们证明利用伪标签进行训练可以通过利用未标记的数据来大大提高基线模型的准确性。 我们方法的关键是用于生成伪标签的强大基线声学和语言模型,健壮且稳定的波束搜索解码器以及用于增加伪标签多样性的新颖合奏方法。 在LibriSpeech语料库上进行的实验表明,使用单一模型进行自我训练,与在100小时标记数据上训练的基线相比,在干净数据上可以产生21%的相对WER改善。 我们还评估了标签过滤方法,以提高伪标签质量。 通过将六个模型集成在一起并结合标签过滤,自我训练可产生26%的相对改进,并弥合基线与使用所有标签训练的oracle模型之间的55.6%的差距。

1. INTRODUCTION

建立自动语音识别(ASR)系统需要大量转录的训练数据。 与混合模型相比,端到端模型的性能似乎会更加严重地降低可用训练数据的数量[1]。 录制大量音频既昂贵又费时,因此需要能够从大量未配对的音频和文本数据中学习更多的算法。 已经提出了许多半监督训练方法来利用这种未配对的数据。 一种这样的方法,自我训练,使用从在小得多的标记数据集上训练的模型生成的噪声标记。
我们在注意序列到序列模型的情况下重新讨论自训练[2,3]。 我们展示了LibriSpeech上的自我培训的相对收益,LibriSpeech是公开可用的阅读语音语料库,无需使用外部培训的语言模型。 使用在大型文本语料库上训练过的LM,自我训练可使WER相对于纯净测试集提高26%,相对于嘈杂测试集提高21%。
我们的自训练算法的三个关键组成部分是:(1)在小的配对数据集上训练的强大基线声学模型;(2)用于序列对序列模型的强大而高效的波束搜索解码器,可有效利用 外部训练的神经语言模型和(3)一种新颖的整体自训练方法,可提高标签的多样性。 我们的基准监督模型仅接受了100个小时的干净数据训练,在干净测试集上的WER为8.06%,这是端到端设置中文献中报道得最好的结果。 结合自我训练,我们的模型在干净的测试集上实现了5.93%的WER,仅比460小时干净的语音中对所有可用标签进行了训练的oracle实验仅差1.7%
我们还评估了两种针对伪标签过滤的方法[4],这些方法是针对序列到序列模型经常遇到的错误而量身定制的,并展示了它们对伪标签和模型质量的影响。 最后,我们对自训练算法的重要组成部分的重要性进行了全面的实证评估。 特别是,我们研究使用的语言模型,过滤功能中的机制以及集合中的模型数量。 在实践中,可用于语言模型训练的文本可能与声学成绩单的分布不匹配。 我们通过观察WER作为用于生成伪标签的语言模型的困惑程度的函数,来洞悉这种潜在的不匹配。

3. SEMI-SUPERVISED SELF-TRAINING

在半监督的情况下,我们有一个未配对的数据集,除了配对的数据集D外,它还由未标记的话语X和文本数据集Y组成。 假设|x|>> n及| Y | ≫ n。
为了进行自我训练,我们首先通过最大化方程式8中的目标,在配对数据集D上引导声学模型PAM。我们还在Y上训练语言模型PLM。然后,我们使用声学模型和语言模型来生成一个 通过求解等式6,为每个未标记的示例X∈X伪标记。这为我们提供了一个伪配对数据集D¯= {(Xi,Y¯i)| Xi∈X}。 然后,我们以目标D和D的均等加权级联训练新的声学模型

3.1. Filtering

伪标记的数据集D′包含嘈杂的转录。 在D的大小(越大越好)和伪标签中的噪声之间取得适当的平衡可以使自训练更有效。 我们设计了一种特定于序列到序列模型的简单的基于启发式的过滤功能。 过滤功能可在保留大部分伪标记的同时,以较高的查全率删除最嘈杂的转录。
众所周知,序列到序列模型在推理上会以两种方式灾难性地失败:(1)注意会循环,导致长输出;(2)模型可以太早预测EOS令牌,从而导致输出过短[10]。
通过删除包含重复超过c次的n-gram的示例,我们对第一个失败情况进行了过滤。 这里的n和c是我们根据标记的开发集调整的超参数。 如第2.1节所述,我们试图通过仅保持EOS概率高于指定阈值的假设来处理第二种失败情况。 但是

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值