A BETTER AND FASTER END-TO-END MODEL FOR STREAMING ASR

傲娇的程序猿

于 2021-05-17 16:56:54 发布

阅读量415

点赞数

分类专栏：语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23126625/article/details/116923604

版权

语音识别专栏收录该内容

9 篇文章

订阅专栏

论文阅读：A BETTER AND FASTER END-TO-END MODEL FOR STREAMING ASR

下载链接：https://arxiv.org/abs/2011.10798

主要内容：

本篇文章主要是想在解决end-2-end网络的延时问题的同时保持网络的解码效果。文章提出了一种conformer+Cascaded Encoders的网络框架，以保证网络的解码效果。同时提出了一些降低延时的方法，并对每种方法进行了实验验证

模型主要结构：

1、conformer

文章中使用了一种改进了的conformer结构，主要做了以下一些改进

在做self-attention的时候只使用 the previous context（为了进行流式解码）
将长度接近的音频放在同一个batch里面进行训练（为了提高效率）
用group normalization 代替 bctch normalization （避免有偏估计）
不再使用相对位置编码，通过使用交换卷积个multihead 顺序的方式提供相对位置信息（加快训练速度）

下图为改进后的conformer结构：

2、Two-pass with Cascaded Encoders

本文提出了一种两阶段的级联encoder，以解决基于attention的算法对于长音频的解码效果不佳的问题。

第一阶段：causal encoder+RNNT decoder；

第二阶段：将第一阶段 encoder 的输出作为第二阶段non causal encoder的输入，然后再输入相同的decoder。

在降低延时方面做得一些工作

1、首先介绍了三种度量延时的指标，然后提出了一些相应的降低延时的方法。

Endpointer Latency：说话人完成说话到系统预测出最终结果的时间
Prefetch Latency：系统第一次正确的预载入到说话人完成说话的时间（可以使用 E2E prefetching）
Partial Latency：系统第一次给出正确的中间结果到说话人完成说话的时间（可以使用constrained alignment，fast-emit)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。