李宏毅-人类语言处理(三):语音识别-LAS

本文介绍了李宏毅教授讲解的语音识别模型——LAS。LAS模型由Listen、Attend和Spell三个部分组成。Listen模块通过CNN或RNN去除噪声并提取语音特征;Attend模块利用注意力机制结合encoder输出和关键字向量;Spell模块输出单词分布,实现语音转文字。整个过程结合了Self-Attention技术,提高了识别效率。
摘要由CSDN通过智能技术生成

李老师讲的第一个语音模型为LAS。其中L为Listen代表模型的Encoder模块,S为Spell代表模型的Decoder,Attend代表Attention,指模型使用了注意力机制。

Listen

Listen模块即模型的encoder模块,这个模块以一个由向量组成的序列特征(如MFCC)作为输入,输出一串相同长度的向量序列。
这一模块的目标:
1.把不同的speaker的说相同的词语句子的差异和语音数据中的噪声等移除。
2.提取语音中与具体内容相关的信息。
此模块可以使用CNN或RNN。
关于Self-Attention的教学链接:https://www.youtube.com/watch?v=ugWDIIOHtPA
通常要先对输入序列做down-sampling,因为输入序列中一秒就有非常多个向量,相邻的向量信息重合度高。训练效率低。
主要做法为Listen模块在多层RNN或CNN后通过相关技术得到比输入序列短的特征向量组成的序列。CNN: Time-delay DNN
Self-Attention: truncated self-attention。

Attend

此模块将encoder的输出向量与关键字向量 z 0 z_0

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值