新一代Kaldi技术总结

u013250861

于 2024-05-29 01:06:27 发布

阅读量53

点赞数

分类专栏： # Audio/ASR 文章标签： K2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/139219281

版权

Audio/ASR 专栏收录该内容

31 篇文章 66 订阅 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

本文总结了新一代Kaldi的技术创新，包括Pruned RNN-T损失函数优化，GPU上的高效RNN-T解码，多码本量化索引的知识蒸馏，低延时RNN-T和CTC训练，Zipformer模型，以及模型部署方案Sherpa和Sherpa-ncnn。这些技术在语音识别和ASR领域展现出显著的性能提升和效率改进。

摘要由CSDN通过智能技术生成

1. 技术创新

1.1 Pruned RNN-T loss

该项工作是新一代Kaldi针对RNN-T损失函数的创新性改进。原始的RNN-T损失函数在处理长文本或者长语音的时候显存占用较大，训练时间较长。对此，我们提出对RNN-T的log-probability lattice进行裁剪，能够在不损失训练精度的前提下大幅缩短RNN-T损失函数的计算时间。该工作已经被Interspeech2022收录，我们也撰写了多篇文章详细介绍其中的细节:

初探Pruned RNN-T：多快好省的 RNN-T 训练
细聊Pruned RNN-T：Pruned RNN-T 何以又快又好

欢迎大家阅读交流！

1.2 RNN-T的快速GPU解码

在该项工作中我们在 GPU 上实现了高效的 FSA 解码，为此我们对 RNN-T 做了一些改造，首先我们

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
新一代Kaldi技术总结

根据lattice中不同通路的产生的时延，对RNN-T的log-probability lattice进行简单的修正，让模型更倾向于学习时延更短的通路。在该项工作中我们在 GPU 上实现了高效的 FSA 解码，为此我们对 RNN-T 做了一些改造，首先我们在 RNN-T 中使用了无状态的 decoder 网络，使用有限的left context；知识蒸馏是常见的提升模型表现的办法。该办法能够在几乎不影响知识蒸馏的效果的前提下，实现对教师标签上百倍的压缩，有效的解决了传统知识蒸馏办法在大数据集下面临的困境。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。