Efficient Active Learning for Automatic Speech Recognition... 论文笔记

Efficient Active Learning for Automatic Speech Recognition via Augmented Consistency Regularization,submited to INTERSPEECH2020

文章链接

背景及概述

In short, using Active Learning (uncertainty sampling) and Semi-Supervised Learing (pseudo lable, FixMatch) pipelines to reduce the labeling cost.
本文使用主动学习和半监督学习减少E2E-ASR任务上的标注代价。

  • E2E-ASR将声学模型Acoustic Model(AM) and 语言模型Language Model (LM)结合成单个可训练的模型,在Large Vocabulary Automatic Speech Recognition (LVASR) 领域取得了显著的成果,但其需要大量的训练数据。
  • 主动学习使用人工标注的数据解决标注代价问题,而一些半监督学习使用机器标注的数据解决标注代价问题。主动学习使用的数据是模型不熟悉的(uncertain方法),可能会导致训练失败,而半监督学习使用置信度高的数据,可能对训练没有帮助,或者给到错误的标签。本文将结合使用两种方法减少标注代价。

利用certain和uncertain部分,如图:
利用certain和uncertain部分

方法

Uncertainty Sampling

不同于单个标签的任务,uncertainty通过top-1后验概率计算,语音识别任务需要考虑标签序列的协同概率。
采用Interspeech2019文中类似的方法,将长度正则化后的路径概率当作uncertainty度量:
Normalized path-probability
计算所有的样本的 N P NP NP值,选择 N P NP NP值最小的一些样本进行标注。文中通过图示比较了人工的uncertainty度量(loss,CER)和NP之间的差别:
Different metric
s e t ( 1 ∣ 5 ) set_(1|5) set(15) 时,训练数据中包含了最不确定的样本,此时 N P NP NP度量下,CER最低,而随着数据量的增加,集合中的不确定样本越少,CER更高。与NP不同的是,其他Oracle指标并没达到预期效果,因为Oracle指标可能无法直接度量预测标签的联合概率,而是仅度量与ground truth相关的预测差异,而没有考虑序列中标签之间的依赖性。所以文中采用 y ^ \hat{y} y^ N P NP NP作为伪标签和uncertainty度量。

Consistency Regularization

机器标注的数据相对于人工标注数据,它的信息量更少,并且有噪声。文中采用FixMatch(Google research 2020)中的方法,基本思想是经过数据增强的数据,模型对它前后的预测应该一致,相当于在未标注数据上加了一项一致性正则项。语音相对于图像对失真更敏感,容易改变其语义信息,应仔细设计增强方式,文中采用三种方式:playing speed (SPEED), pitch-shifting (PITCH), and Adding White Gaussian Noise (AWGN)。
考虑通过主动学习人工标注的数据,采用标准交叉熵损失,supvisied loss:
supvisied loss
对于打伪标签的数据,采用和伪标签(置信度大于阈值 τ \tau τ)比较的交叉熵损失,unsupervisied loss:
unsupervisied loss
通过将两项损失结合,可以得到最后的损失函数,total loss:
total loss

实验

数据集采用CLOVA,初始标注数据110小时,未标注数据386小时,测试数据56小时。提取样本频率图谱时采用200ms窗口长度,100ms步长。
E2E模型基于LAS构建,encoder是三层bio-LSTM,并且前两层采用卷积网络;decoder是结合注意力机制的2层bio-LSTM。
比较方法有全标注和不同比例的标注数据。
实验结果如下,P,A(W),S代表不同的数据增强方法,NoCR代表没有一致性正则项:

  • different LUxy
    different LUxy
  • different LUxy,上图表格数据
    different LUxy2
  • 图a 未标注数据的利用率,图b 伪标签的错误率
    图a 未标注数据的利用率,图b 伪标签的错误率

FixMatch

参考:
FixMatch解读

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值