最近刚刚入坑ASR,在调研论文的时候看到一种类型叫做streaing ASR,有很多论文在streaming ASR上做文章。那么什么是streaming ASR 呢?我在一篇论文的摘要中找到了这么一段话:
In this work, we propose a transformer based end-to-end ASR system for streaming ASR, where an output must be generated shortly after each spoken word[1]
从这段话中可以看出,streaming ASR的独特点在于,它是实时的输出转换好的文字,不需要等输入的语音完全结束才可以输出结果。举个例子来说,当输入的音频是:[我超级喜欢喝冰可乐]。非streaming ASR可能需要等这段语言全部输入完成才能开始转换文字,而streaming ASR 可能听到:[我超喜欢]几个字后就已经可以开始转换文字了。
引用
[1] STREAMING AUTOMATIC SPEECH RECOGNITION WITH THE TRANSFORMER MODEL