Active Learning Methods for Low Resource End-to-End Speech Recognition 论文笔记

Active Learning Methods for Low Resource End-To-End Speech Recognition,INTERSPEECH2019

文章链接

1、背景及概述

In short, a active learning method using a joint score of uncertainty and i-vector diversity.
本文将主动学习应用于端到端(E2E)的语音识别。

  • E2E模型使用encoder-decoder神经网络直接输出字词。相比于传统模型,E2E模型的计算复杂度更低,适用于缺少sub-word或音位级标注/对齐的情况。
  • Low Resource指的是小语种(英语易于获取数据)的语音识别,该任务的标注代价更高。
  • 不同于传统的语音识别方法包括声学模型和语言学模型,主动学习需要在两个模型上提取信息,近些年端到端的语音识别,可以直接输出N个路径的概率(路径是指一个给定语音的字符序列)。另一方面考虑到使用uncertainty sampling易于选取相同的speaker(文章假设),文中提出结合基于i-vector多样性的正则化的uncertainty sampling 主动学习方法。

2、方法

2.1归一化LC

文中提出的方主动学习方法首先基于Least Confidence。
输入 X X X,对于输出的第i条路径 C i C_i Ci,对该条路径做归一化,避免路径的长度 L i L_i Li的影响,得到长度归一化后路径概率:
长度归一化后路径概率
可以定义Least Confiden Score, C ∗ C^* C是X多条路径中概率最大的路径:
Least Confiden Score
LCS与CER关系

2.2Speaker Diversity

其次考虑speaker多样性,使用i-vector无监督方法对所有数据(标注和未标注)进行编码,再对编码的i-vector进行聚类。背后的思想是,在i-vertor映射空间下,不同的簇代表的是不同的speaker,应选取多样的speaker。
假设聚类 K K K个簇, ϕ ( X ) \phi(X) ϕ(X)表示话语 X X X编码后所属于的簇,可取值1到 K K K。把 j j j簇下样本的数量/所有簇样本数量作为多样性指标:
Diversity Index
上述概率越小,代表在j簇上的样本数(word?)越少,在其余簇上越多,具有更大的多样性,可以定义多样性和应最大化的目标函数:
Diversity
Maxmaize Objective Function
算法中每次选择综合分数最大的样本直到T个。然后更新一次多样性指标,再重复迭代。直到达到标注代价限制。

3、实验

实验使用ESPNET作为任务网络,网络结合了CTC和注意力机制。
数据预处理和特征提取使用Kaldi ASR 工具, 提取至83维特征。
i-vector是64维,使用k-means(欧氏距离)聚类至64个簇。
对比方法random,least confidence,proposed。

  • Librispeech(英语)数据集,包括1000小时英语speech,使用包括500小时的子集作为训练集(20初始化标记数据,480为标记数据),5小时训练数据。网络结构是8层Bi-LSTM,评价标准有word error rate(WER)和character error rate(CER):
    Results
  • Corpus of Spontaneous Japanese(日语)数据集,包括581小时训练数据和3种类型5小时测试集。使用其中的230小时作为未标记数据,20小时作为初始标记数据。网络结构是6层Bi-LSTM,评价标准有character error rate(CER):
    Results2

4、I-vector 介绍

参考:
I-Vector的推导详解
声纹识别之I-Vector

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度高分辨率表示学习是一种用于视觉识别的技术,旨在从图像中学习到更高质量和更具表达力的特征表示。在传统的视觉识别任务中,如图像分类、目标检测和语义分割,传统的特征表示方法通常提取低级或中级特征,这些特征可能无法有效地捕捉到图像的复杂信息。而深度高分辨率表示学习通过多层神经网络的结构和大规模训练数据来学习更深层次、更富有语义的图像特征。 深度高分辨率表示学习方法通常包含以下几个关键步骤:首先,通过使用深度卷积神经网络(DCNN)架构来学习特征表示。DCNN是一种层次结构复杂、能够从原始像素数据中自动学习特征的神经网络。其次,利用大规模的标注数据进行训练,通过反向传播算法来更新网络的权重和偏置参数,从而最小化预测误差。最后,在训练过程中采用一些优化策略,如数据增强、正则化和优化器选择等,以提高网络的泛化能力和识别性能。 深度高分辨率表示学习在计算机视觉领域有着广泛的应用。一方面,它可以用于图像分类,通过学习到的高质量特征表示,可以在分类任务中获得更高的准确性和鲁棒性。另一方面,它也可以用于目标检测和语义分割任务,通过学习到的特征表示,可以更准确地定位和分割图像中的对象。此外,深度高分辨率表示学习还可以用于识别特定的物体、场景或人脸,从而应用于人脸识别、目标跟踪和智能安防等领域。 总之,深度高分辨率表示学习是一种能够有效提高视觉识别任务准确性和鲁棒性的技术。它通过学习到更深层次、更富有语义的图像特征表示,提供了更强大的图像分析和理解能力,为计算机视觉领域的各种应用提供了重要的支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值