自然语言处理之语音识别（2）

最新推荐文章于 2023-12-31 01:36:31 发布

今天学习算法了吗

最新推荐文章于 2023-12-31 01:36:31 发布

阅读量2.5k

点赞数 1

分类专栏：语音识别文章标签：语音识别自然语言处理人工智能

本文链接：https://blog.csdn.net/m0_56618741/article/details/121184793

版权

语音识别专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文探讨了语音识别模型的进化，从LAS模型到RNN-T模型，重点在于如何解决在线输出的问题。MoCha模型通过窗口判断输入是否对应输出，而RNN-T模型则能动态应对一个音符产生多个输出的挑战。这些模型的进步对于实时语音处理具有重要意义。

摘要由CSDN通过智能技术生成

上一节介绍的是LAS模型，标准的seq2seq model，因为decoder每一步其实考虑的是全部的encoder的输出，所以没办法做到online的输出。因此今天看的模型都是为了做online产生的。

先上一张李宏毅老师的模型总结图：

从上到下，从左到右其实是可以发现模型发展的一些规律的。

1. 语音的特点：因为语音的输入vector个数很多，但不一定每一个都会产生输出，所以采用的方法有：1）在vocab中增加 $\phi$ ，表示该语音输入不对应任何输出。这种方法在训练的时候很麻烦，因为数据集中的label是没有 $\phi$ 的，而且通常输入和输出个数差距比较大，即 $\phi$ 的个数会比较多，那么其所在的位置是很多样的，而目前的模型确实是把所有可能都当成label去训练（老师说有一种算法，但是目前还没有讲到）。2）既然一个输入不一定对应，那我就输入多个（window），只需要确保该window有输出即可，所以问题变成怎么判断该窗口有没有输出呢？MoCha模型。

第一种方法就是以输入为主，输出个数=输入。label比较难产生。第二种以输出为主，label确定，但是在模型中需要用网络判断当前输入是否为窗口。感觉Neural Transducer是位于两种方法之间的。

2. 其次，一个音符可能会产生多个输出，比如“th"只发一个音，所以要模型学会动态的输出，看RNN-T模型结构。

今天学习算法了吗

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理之语音识别（2）

上一节介绍的是LAS模型，标准的seq2seq model，因为decoder每一步其实考虑的是全部的encoder的输出，所以没办法做到online的输出。因此今天看的模型都是为了做online产生的。先上一张李宏毅老师的模型总结图：从上到下，从左到右其实是可以发现模型发展的一些规律的。1. 语音的特点：因为语音的输入vector个数很多，但不一定每一个都会产生输出，所以采用的方法有：1）在vocab中增加，表示该语音输入不对应任何输出。这种方法在训练的时候很麻烦，因为数据集中的labe.
复制链接

扫一扫

专栏目录