自然语言处理之语音识别(2)

本文探讨了语音识别模型的进化,从LAS模型到RNN-T模型,重点在于如何解决在线输出的问题。MoCha模型通过窗口判断输入是否对应输出,而RNN-T模型则能动态应对一个音符产生多个输出的挑战。这些模型的进步对于实时语音处理具有重要意义。
摘要由CSDN通过智能技术生成

上一节介绍的是LAS模型,标准的seq2seq model,因为decoder每一步其实考虑的是全部的encoder的输出,所以没办法做到online的输出。因此今天看的模型都是为了做online产生的。

先上一张李宏毅老师的模型总结图:

从上到下,从左到右其实是可以发现模型发展的一些规律的。

1. 语音的特点:因为语音的输入vector个数很多,但不一定每一个都会产生输出 ,所以采用的方法有:1)在vocab中增加\phi,表示该语音输入不对应任何输出。这种方法在训练的时候很麻烦,因为数据集中的label是没有\phi的,而且通常输入和输出个数差距比较大,即\phi的个数会比较多,那么其所在的位置是很多样的,而目前的模型确实是把所有可能都当成label去训练(老师说有一种算法,但是目前还没有讲到)。2)既然一个输入不一定对应,那我就输入多个(window),只需要确保该window有输出即可,所以问题变成怎么判断该窗口有没有输出呢?MoCha模型。

        第一种方法就是以输入为主,输出个数=输入。label比较难产生。第二种以输出为主,label确定,但是在模型中需要用网络判断当前输入是否为窗口。感觉Neural Transducer是位于两种方法之间的。

2. 其次,一个音符可能会产生多个输出,比如“th"只发一个音,所以要模型学会动态的输出,看RNN-T模型结构。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值