李宏毅HLP笔记(一): End-to-End ASR Model (LAS)

Trracy

已于 2022-03-26 01:23:07 修改

阅读量3.7k

点赞数 1

分类专栏： End-to-End ASR 文章标签：语音识别深度学习

于 2022-03-26 01:05:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_55016188/article/details/123747121

版权

本文介绍了基于Attention机制的端到端语音识别模型LAS，包括模型的Listen、Attend和Spell三个部分。Listen使用RNN或self-attention提取声学特征，Attend通过Attention机制计算特征与关键词的相似度，Spell利用Decoder生成输出。模型训练采用Teacher Forcing，适用于非在线识别，但无法实现在线识别。

摘要由CSDN通过智能技术生成

LAS: Listen, Attend and Spell [Chorowski et al., NIPS'15]

基于Attention机制的end-to-end语音识别模型

模型介绍

Listen (Encoder):

模型第一部分叫做Listener, 其input为常见的声学特征序列(mfcc/filterbank), output为经过提取后的高阶声学特征序列h = (h1,h2,h3,...)。

具体可以用各种RNN模型来实现。比如Pyramid RNN每几个timestep的input特征合并输出一个高阶特征；Pooling Over Time 的方法每过几个timestep输出一个特征；Time-delay的DNN在多个input feature里选择相关的输出高阶特征; 这些都起到了类似特征降维的效果(down sampling)。更先进的有用self-attention layer代替rnn layer的模型,truncated self-attention模型就是对input feature有选择地做self-attention. (self-attention可参照:https://www.youtube.com/watch?v=ugWDIIOHtPA)

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。