声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。
Investigation of Training Label Error Impact on RNN-T
本文为Amazon在2021.12.01更新的文章,主要研究训练数据各种的标注错误对RNN-T模型的影响,具体的文章链接
https://arxiv.org/pdf/2112.00350.pdf
1 背景
训练数据的标注错误对模型性能表现影响程度的研究在图像领域较多,在识别领域的研究较少。识别领域的训练数据标注错误主要分为三类: deletion , insertion 和substitution。在GMM-HMM模型时代,数据的insertion错误对声学模型影响较大。本文主要研究以上三种错误对端到端的语音识别模型RNN-T的影响程度以及各种减缓错误的影响策略。
2 实验设计和对比方案
1) 错误类型
删除 deletion , 插入insertion 和替换substitution。
2) 训练错误数据
制造 deletion , insertion 和substitution占比1.0%,2.0%和6.0%数据。其中table 1展示LER和SER的关系。
3) 缓解标注错误的通常策略
a) data based: 数据清洗data filtering or selection
b) model capacity based: 增大模型参数量 increase model or data size
c) optimization processs based: regularization(dropout, specaugment)
4) 对比的系统table 2所示
3 实验结果
由于amazon数据策略,本文的数值都使用相对错误率R_WER(值越小越好)。table 2展示各类错误的数据训练的不同模型的效果,其结论为deletion错误对模型性能影响较大。table4对比各种regularization策略的效果,结果显示这些策略可以提高系统的表现,但不能消除各类标注错误之间的相对错误。图1展示了增加数据量对系统的影响,结果显示增加数据带来系统性能提升,但无法效果标注错误带来的性能差异。table 5和图2展示了系统大小参数量以及表现性能,结果显示提高模型参数量提议提高模型性能,但无法消除标注错误带来的影响。table6展示了删除错误数据带来的影响,但删除数据带来数据量下降,参考table1展示删除6%LER会删除22.8%的训练语料,因此对于deletion有效果,但insertion 和substitution影响不大。
4 总结
本文主要研究训练数据标注错误类型(deletion , insertion 和substitution)对RNN-T性能的影响,并实验对比目前缓解标注错误的常用策略效果。