https://zhuanlan.zhihu.com/p/37601161
https://zhuanlan.zhihu.com/p/31547842
在 Attention 机制引入之前,有一个问题大家一直很苦恼:长距离的信息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。attention 的引入,在传统的seq2seq模型中,无法体现在一个序列句子中不同部分的关注度
传统的seq2seq,输出y对输入序列x1,x2,x3...没有区分,没有辨识度,下图二中我们引入了attention机制,每个输出的词y受输入X1,X2,X3...影响的权重不同,这个权重便是由Attention计算,因此可以把Attention机制看成注意力分配系数,计算输入每一项对输出权重影响大小
1.attention 三部曲
(1) 计算q与k的相似 (2)softmax 归一化 (3)加权求和
2.attention 优点
(1)与cnn rnn 相比参数少,复杂度更低。(2)与rnn 相比,可以并行运算,提高运行速度,(3) 与cnn相比能够很好的捕捉全局的信息。
3.attention 权重计算函数
在做attention的时候,我们需要计