语音识别(ASR)论文优选: 数据标注错误对RNN-T影响Investigation of Training Label Error Impact on RNN-T

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

Investigation of Training Label Error Impact on RNN-T

本文为Amazon在2021.12.01更新的文章,主要研究训练数据各种的标注错误对RNN-T模型的影响,具体的文章链接

https://arxiv.org/pdf/2112.00350.pdf


1 背景

训练数据的标注错误对模型性能表现影响程度的研究在图像领域较多,在识别领域的研究​较少。识别领域的训练数据标注错误主要分为三类​: deletion , insertion 和substitution。在GMM-HMM模型时代,数据的insertion错误对声学模型影响较大​。本文主要研究以上三种错误对端到端的语音识别模型RNN-T的影响程度以及各种减缓​错误的影响策略。

2 实验设计和对比方案

   1) 错误类型 

        删除 deletion , 插入insertion 和替换substitution。

   2) 训练错误数据

        制造 deletion , insertion 和substitution占比1.0%,2.0%和6.0%数据。其中table 1展示LER和SER​的关系。

  3) 缓解标注错误的通常策略

      a) data based: 数据清洗data filtering or selection   

      b) model capacity based: 增大模型参数量 increase model or data size

      c) optimization processs based: regularization​(dropout, specaugment)

  4) 对比的系统table 2所示

3 实验结果

由于amazon数据策略,本文的数值都使用相对错误率R_WER(值越小越好)​。table 2展示各类错误的数据训练的不同模型的效果,其结论为deletion错误对模型​性能影响较大。table4对比各种regularization策略的效果,结果显示这些策略可以提高系统的表现,但不能消除各类标注错误之间的相对​错误。图1展示了增加数据量对系统的影响,结果显示增加数据带来系统性能提升,但无法效果标注错误带来的性能​差异。table 5和图2展示了系统大小参数量以及表现性能,结果显示提高模型参数量提议提高模型性能,但无法消除标注错误带来的影响​。table6展示了删除错误数据带来的影响,但删除数据带来数据量下降,参考table1展示删除6%LER会删除22.8%的训练语料,因此对于deletion有效果,但insertion 和substitution影响不大。

4 总结

本文主要研究训练数据标注错误类型(deletion , insertion 和substitution)对RNN-T性能的影响,并实验对比目前缓解标注错误的常用策略效果​。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值