SEMI-SUPERVISED ASR BY END-TO-END SELF-TRAINING 端到端半监督训练

本文提出了一种端到端的半监督自动语音识别(ASR)自训练方法,通过CTC基础模型生成伪标签,利用无监督数据增强训练。实验证明,该方法能有效提升模型准确性,相对WER下降14.4%,减少基础系统与最优系统性能差距50%。
摘要由CSDN通过智能技术生成

作者分别来自 俄亥俄州立大学,Salesforce, 亚马逊 alexa,还是值得一读

ABSTRACT

尽管基于深度学习的端到端自动语音识别(ASR)系统大大简化了建模流程,但它们却遭受数据稀疏性的困扰。文章提出了一种用于半监督ASR的端到端系统的自训练方法。以监督数据上训练的CTC为基础模型,无监督mini-batch数据在该模型生成伪标签,并使用伪标签来扩充监督数据以立即更新模型。该方法保留了端到端ASR系统的简单性,并且可以看作是在明确定义的学习目标上执行交替优化。文章做了些实证研究,涉及数据增强的影响,伪标记生成的解码波束大小以及伪标记的新鲜度。在带有WSJ语料库的常用半监督ASR上,该方法相对ctc base系统,相对WER下降了14.4%,使基本系统与oracle系统之间的性能差距降低了50%

INTRODUCTION

现代ASR系统面临的一个挑战是,随着模型容量的不断扩大,需要大量的标记数据来对其进行全面的训练。 不幸的是,收集和记录庞大的数据集既昂贵又费时。 因此,半监督ASR已成为重要的研究方向,其目标是利用大量未标记的数据和少量的标记数据进行训练。 在这种情况下,最简单的方法之一是自我训练,它使用解码结果或对非监督数据(通常在单词级别)上的伪标签来增强监督训练。 它已被证明对传统的ASR管道非常有效[1,2,3,4]。
我们交替执行以下两个过程:1、在无监督mini-batch 句子上使用令牌级解码器生成伪标签,2、增强刚刚解码的(输入,伪标签)对以进行有监督训练。 实验表明,该方法可以通过对声学模型和非监督数据的未观察标签进行统一目标的交替优化而得出。 这两个过程可以有效地相互增强,从而使得模型的准确性不断提高。
不同于其他工作的点是;
The pseudo-labels we use are discrete, token-level label sequences, rather than per-frame soft probabilities
The pseudo-labels are generated on the fly, rather than in one shot, since fresh labels are of higher quality than those produced from a stale model.
We perform data augmentation not only on supervised data, but also on unsupervised data.

SUPERVISED LEARNING FOR ASR

2.1 End-to-end ASR with CTC

输入序列X = (x1, …, xT ) ,相应的标签序列Y=(y1,…,yL),条件概率:
在这里插入图片描述
B−1(Y ) 是包含重复和 的 Y的各种可能路径,P(pj |X) 为第j帧的后验概率。基本假设是,以整个输入序列X为条件,路径p的概率在帧上解耦。CTC loss 定义为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值