DLNLP学习笔记03（Speech Recognition: LAS模型）

最新推荐文章于 2024-07-10 14:45:45 发布

苦恼的疯疯

最新推荐文章于 2024-07-10 14:45:45 发布

阅读量734

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GaLileo_C/article/details/107636572

版权

NLP 专栏收录该内容

6 篇文章

订阅专栏

Listen, Attend, and Spell (LAS) [Chorowski. et al., NIPS’15]
论文地址：https://arxiv.org/pdf/1508.01211.pdf

1 模型简介：

2 Listen：其中Encoder可以为RNN，CNN或者RNN+CNN。

Listen-down sampling：（RNN）

（CNN和Self-attention）【Dilated CNN（膨胀卷积），Truncated Self-attention（截断自注意力机制）】

3 Attention：两种计算注意力权重α的方法，z为随机初始化向量，其中区别在于match function，左图直接计算两个向量的点积得到注意力权重α，右图相加后再经过tanh激活函数和线性回归得到注意力权重α。

得到Decoder的输入向量（context vector）：

4 Spell：使用beam search（每次保留beam size大小的最大概率的输出结果，最后得到beam size大小的最佳选择路径，其中最大概率的为最终输出结果。）寻找最大概率输出。

5 Training：其中teacher forcing，是在训练过程中，decoder直接根据正确答案进行对下一个输出的预测，作用在于加快模型收敛。

6 Back to Attention：两种注意力向量的输入位置，LAS两个综合使用。

一些思考：Attention主要应用于保留长文本的信息，而语音辨别只需要关注当前附近的信息，实际上是否不需要Attention。（输入输出有对应关系。）
解决思路：将前一个位置靠近的注意力权重向量输入到match function中，考虑过去的attention，而不会让attention去注意到整个文本的信息。

7 Does it work? 随着数据量的增大，LAS的效果越来越好，甚至超过了传统的方法，并且模型占用的空间小。除此之外，LAS在没有使用Location-aware attention的情况下可以自学得到正确的attention权重系数，以及可以学习得到同义转换的效果，甚至不需要language model也可以学习得到很好的效果。

8 缺点：1）无法进行在线识别，即一边听一边输出结果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。