Efficient Active Learning for Automatic Speech Recognition via Augmented Consistency Regularization,submited to INTERSPEECH2020
目录
背景及概述
In short, using Active Learning (uncertainty sampling) and Semi-Supervised Learing (pseudo lable, FixMatch) pipelines to reduce the labeling cost.
本文使用主动学习和半监督学习减少E2E-ASR任务上的标注代价。
- E2E-ASR将声学模型Acoustic Model(AM) and 语言模型Language Model (LM)结合成单个可训练的模型,在Large Vocabulary Automatic Speech Recognition (LVASR) 领域取得了显著的成果,但其需要大量的训练数据。
- 主动学习使用人工标注的数据解决标注代价问题,而一些半监督学习使用机器标注的数据解决标注代价问题。主动学习使用的数据是模型不熟悉的(uncertain方法),可能会导致训练失败,而半监督学习使用置信度高的数据,可能对训练没有帮助,或者给到错误的标签。本文将结合使用两种方法减少标注代价。
利用certain和uncertain部分,如图:
方法
Uncertainty Sampling
不同于单个标签的任务,uncertainty通过top-1后验概率计算,语音识别任务需要考虑标签序列的协同概率。
采用Interspeech2019文中类似的方法,将长度正则化后的路径概率当作uncertainty度量:
计算所有的样本的
N
P
NP
NP值,选择
N
P
NP
NP值最小的一些样本进行标注。文中通过图示比较了人工的uncertainty度量(loss,CER)和NP之间的差别:
在
s
e
t
(
1
∣
5
)
set_(1|5)
set(1∣5) 时,训练数据中包含了最不确定的样本,此时
N
P
NP
NP度量下,CER最低,而随着数据量的增加,集合中的不确定样本越少,CER更高。与NP不同的是,其他Oracle指标并没达到预期效果,因为Oracle指标可能无法直接度量预测标签的联合概率,而是仅度量与ground truth相关的预测差异,而没有考虑序列中标签之间的依赖性。所以文中采用
y
^
\hat{y}
y^和
N
P
NP
NP作为伪标签和uncertainty度量。
Consistency Regularization
机器标注的数据相对于人工标注数据,它的信息量更少,并且有噪声。文中采用FixMatch(Google research 2020)中的方法,基本思想是经过数据增强的数据,模型对它前后的预测应该一致,相当于在未标注数据上加了一项一致性正则项。语音相对于图像对失真更敏感,容易改变其语义信息,应仔细设计增强方式,文中采用三种方式:playing speed (SPEED), pitch-shifting (PITCH), and Adding White Gaussian Noise (AWGN)。
考虑通过主动学习人工标注的数据,采用标准交叉熵损失,supvisied loss:
对于打伪标签的数据,采用和伪标签(置信度大于阈值
τ
\tau
τ)比较的交叉熵损失,unsupervisied loss:
通过将两项损失结合,可以得到最后的损失函数,total loss:
实验
数据集采用CLOVA,初始标注数据110小时,未标注数据386小时,测试数据56小时。提取样本频率图谱时采用200ms窗口长度,100ms步长。
E2E模型基于LAS构建,encoder是三层bio-LSTM,并且前两层采用卷积网络;decoder是结合注意力机制的2层bio-LSTM。
比较方法有全标注和不同比例的标注数据。
实验结果如下,P,A(W),S代表不同的数据增强方法,NoCR代表没有一致性正则项:
- different LUxy
- different LUxy,上图表格数据
- 图a 未标注数据的利用率,图b 伪标签的错误率
FixMatch
参考:
FixMatch解读