声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进
以前阅读的是语音合成相关的代码,现在有机会做一些识别相关的工作,所以接下来也会整理识别相关的资料。
U2++: Unified Two-pass Bidirectional End-to-end Model for Speech Recognition
本文是出门问问联合西北工业大学在2021.06.10更新的文章,在统一streaming和non-streaming的u2基础提出u2++,使其错误率下降,具体文章链接https://arxiv.org/pdf/2106.05642.pdf
(关于u2和wenet可以参考我上一篇文章https://mp.weixin.qq.com/s/6_BIKrZ1I99NwITETiwISQ)
1 背景
端到端的ASR最近几年受到学术界和产业界的关注,诸如CTC, RNN-T,AED(attention base