INTERSPEECH 2022论文解读｜Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型

最新推荐文章于 2024-08-14 00:00:00 发布

u013250861

最新推荐文章于 2024-08-14 00:00:00 发布

阅读量106

点赞数

分类专栏： # Audio/ASR 文章标签：语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/139197966

版权

Audio/ASR 专栏收录该内容

31 篇文章 68 订阅 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

Paraformer是一种在INTERSPEECH 2022会议上提出的单轮非自回归模型，它解决了传统Transformer计算效率低的问题。该模型通过Predictor预测文字数量和声学特征，使用Sampler增强上下文建模，结合MWER训练准则，实现了高识别率和高计算效率。在AISHELL-1和AISHELL-2数据集上表现优秀，并在2万小时工业数据上达到与自回归模型相当的识别效果，且速度提升10倍以上。

摘要由CSDN通过智能技术生成

INTERSPEECH 是由国际语音通讯协会（International Speech Communication Association, ISCA）创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。

本文介绍一种具有高识别率与计算效率的单轮非自回归模型 Paraformer。该论文已被 INTERSPEECH 2022 接收。

近年来，随着端到端语音识别的流行，基于 Transformer 结构的语音识别系统逐渐成为了主流。然而，由于 Transformer 是一种自回归模型，需要逐个生成目标文字，计算复杂度随着目标文字数量而呈线性增加，限制了其在工业生产中的应用。

针对 Transoformer 模型自回归生成文字的低计算效率的缺陷，学术界提出了非自回归模型来并行地输出目标文字（如图1所示）。根据生成目标文字时的迭代轮数，非自回归模型分为：多轮迭代式与单轮非自回归模型。

图1 自回归模型与非自回归模型生成文字过程 [1]<

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
INTERSPEECH 2022论文解读｜Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型

计算复杂度与迭代轮数有关（通常小于目标文字个数），相比于自回归模型，计算复杂度有所下降，但是解码需要多轮迭代的特性，限制了其在工业生产中的应用。对于单轮非自回归模型，现有工作往往聚焦于如何更加准确的预测目标文字个数，如较为典型的 Mask CTC[3]，采用 CTC 预测输出文字个数，尽管如此，考虑到现实应用中，语速、口音、静音以及噪声等因素的影响，如何准确的预测目标文字个数以及抽取目标文字对应的声学隐变量仍然是一个比较大的挑战。，计算复杂度与目标文字个数无关，进而极大的提高了解码效率。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。