Attention model intuition
在前面的 seq2seq 模型基础上做些改进,形成注意力模型
Attention 的思想已经是深度学习中最重要的之一
给定一个非常长的法语句子
前面讲到的模型,会把原句子输入编码,然后解码生成翻译
但是人类的做法是,一小部分,一小部分地进行翻译
以 Bleu score 来说
机器翻译对于短句子的处理效果较好
长句子的表现就会越来越差
而注意力模型会改善这个问题
注意力模型来源于 Dimitri Bahdanau, Camcrun Cho, Yoshe Bengio
虽然这个模型是为了机器翻译发明的,但是后来被推广到了其他应用领域
所以这个 paper 非常有开创力 和 影响力
我们在短句子上看下效果
这里我们使用双向 RNN 结构
由于不准备一个个词进行输出翻译,所以去掉上面的 y_hat
使用双向 RNN,可以计算 每个位置 的特征集,包括周围的词
然后我们使用另一个 RNN 来生成英文翻译
-
<