Attention在语音识别中的应用(2)

最新推荐文章于 2022-07-29 01:16:49 发布

quheDiegooo

最新推荐文章于 2022-07-29 01:16:49 发布

阅读量3.1k

点赞数 1

分类专栏：语音识别 Attention 文章标签： Attention 语音识别声学模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/quheDiegooo/article/details/76890128

版权

本文深入探讨了Attention在语音识别中的应用，通过分析William Chan等人在2015年和2016年的两篇研究，阐述了Attention如何提升模型性能。文章指出，尽管Attention机制在不同长度句子的识别上存在局限性，但其在无需解码器和语言模型的实时语音识别中展现出潜力，为后续研究提供了方向。

摘要由CSDN通过智能技术生成

上一篇文章介绍了Attention机制在语音识别和MNT中的应用，由于上篇文章篇幅较长，所以分出本章对Attention进行继续介绍。

接下里会介绍2篇文章。

第一篇为William Chan 等人在2015年8月份提出的比较经典的Listen, Attend and Spell[1],

其中Encoder RNN 别名为listener，Decoder RNN别名为speller

listener具体架构为一个金字塔RNN结构，用来把低维的语音信号转成高维的特征，其中金字塔RNN加速了训练收敛的速度。

speller为RNN结构，借助于Attention机制，把高维的特征转成对应的文本句子。其架构如下所示：

其输入x为40-dimensional log-mel filter bank features，输出y为英文字符和标点，空格等字符。

最低0.47元/天解锁文章

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。