DLNLP学习笔记03(Speech Recognition: LAS模型)

Listen, Attend, and Spell (LAS) [Chorowski. et al., NIPS’15]
论文地址:https://arxiv.org/pdf/1508.01211.pdf

1 模型简介:


2 Listen:其中Encoder可以为RNN,CNN或者RNN+CNN。

Listen-down sampling:(RNN)

(CNN和Self-attention)【Dilated CNN(膨胀卷积),Truncated Self-attention(截断自注意力机制)】


3 Attention:两种计算注意力权重α的方法,z为随机初始化向量,其中区别在于match function,左图直接计算两个向量的点积得到注意力权重α,右图相加后再经过tanh激活函数和线性回归得到注意力权重α。

得到Decoder的输入向量(context vector):


4 Spell:使用beam search(每次保留beam size大小的最大概率的输出结果,最后得到beam size大小的最佳选择路径,其中最大概率的为最终输出结果。)寻找最大概率输出。


5 Training:其中teacher forcing,是在训练过程中,decoder直接根据正确答案进行对下一个输出的预测,作用在于加快模型收敛。


6 Back to Attention:两种注意力向量的输入位置,LAS两个综合使用。

一些思考:Attention主要应用于保留长文本的信息,而语音辨别只需要关注当前附近的信息,实际上是否不需要Attention。(输入输出有对应关系。)
解决思路:将前一个位置靠近的注意力权重向量输入到match function中,考虑过去的attention,而不会让attention去注意到整个文本的信息。


7 Does it work? 随着数据量的增大,LAS的效果越来越好,甚至超过了传统的方法,并且模型占用的空间小。除此之外,LAS在没有使用Location-aware attention的情况下可以自学得到正确的attention权重系数,以及可以学习得到同义转换的效果,甚至不需要language model也可以学习得到很好的效果。

8 缺点:1)无法进行在线识别,即一边听一边输出结果。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值