Efficient Active Learning for Automatic Speech Recognition... 论文笔记

最新推荐文章于 2023-07-10 17:47:35 发布

Kfdhfljl

最新推荐文章于 2023-07-10 17:47:35 发布

阅读量342

点赞数

分类专栏： Speech Recognition 文章标签：机器学习深度学习语音识别

本文链接：https://blog.csdn.net/Kfdhfljl/article/details/107483522

版权

Speech Recognition 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Efficient Active Learning for Automatic Speech Recognition via Augmented Consistency Regularization，submited to INTERSPEECH2020

文章链接

背景及概述

In short, using Active Learning (uncertainty sampling) and Semi-Supervised Learing (pseudo lable, FixMatch) pipelines to reduce the labeling cost.
本文使用主动学习和半监督学习减少E2E-ASR任务上的标注代价。

E2E-ASR将声学模型Acoustic Model(AM) and 语言模型Language Model (LM)结合成单个可训练的模型，在Large Vocabulary Automatic Speech Recognition (LVASR) 领域取得了显著的成果，但其需要大量的训练数据。
主动学习使用人工标注的数据解决标注代价问题，而一些半监督学习使用机器标注的数据解决标注代价问题。主动学习使用的数据是模型不熟悉的（uncertain方法），可能会导致训练失败，而半监督学习使用置信度高的数据，可能对训练没有帮助，或者给到错误的标签。本文将结合使用两种方法减少标注代价。

利用certain和uncertain部分,如图：

方法

Uncertainty Sampling

不同于单个标签的任务，uncertainty通过top-1后验概率计算，语音识别任务需要考虑标签序列的协同概率。
采用Interspeech2019文中类似的方法，将长度正则化后的路径概率当作uncertainty度量：
Normalized path-probability
计算所有的样本的 $N P$ 值，选择 $N P$ 值最小的一些样本进行标注。文中通过图示比较了人工的uncertainty度量（loss，CER）和NP之间的差别：
Different metric
在 $set_(1|5)$ 时，训练数据中包含了最不确定的样本，此时 $N P$ 度量下，CER最低，而随着数据量的增加，集合中的不确定样本越少，CER更高。与NP不同的是，其他Oracle指标并没达到预期效果，因为Oracle指标可能无法直接度量预测标签的联合概率，而是仅度量与ground truth相关的预测差异，而没有考虑序列中标签之间的依赖性。所以文中采用 $\hat{y}$ 和 $N P$ 作为伪标签和uncertainty度量。

Consistency Regularization

机器标注的数据相对于人工标注数据，它的信息量更少，并且有噪声。文中采用FixMatch（Google research 2020）中的方法，基本思想是经过数据增强的数据，模型对它前后的预测应该一致，相当于在未标注数据上加了一项一致性正则项。语音相对于图像对失真更敏感，容易改变其语义信息，应仔细设计增强方式，文中采用三种方式：playing speed (SPEED), pitch-shifting (PITCH), and Adding White Gaussian Noise (AWGN)。
考虑通过主动学习人工标注的数据，采用标准交叉熵损失，supvisied loss：

对于打伪标签的数据，采用和伪标签(置信度大于阈值 $\tau$ )比较的交叉熵损失，unsupervisied loss：

通过将两项损失结合，可以得到最后的损失函数，total loss：

实验

数据集采用CLOVA，初始标注数据110小时，未标注数据386小时，测试数据56小时。提取样本频率图谱时采用200ms窗口长度，100ms步长。
E2E模型基于LAS构建，encoder是三层bio-LSTM，并且前两层采用卷积网络；decoder是结合注意力机制的2层bio-LSTM。
比较方法有全标注和不同比例的标注数据。
实验结果如下，P,A(W),S代表不同的数据增强方法，NoCR代表没有一致性正则项：