1: self Attention比传统的Attention mechanism效果要好,主要原因之一是,传统的Attention机制忽略了源端或目标端句子中词与词之间的依赖关系,相对比,self Attention可以不仅可以得到源端与目标端词与词之间的依赖关系,同时还可以有效获取源端或目标端自身词与词之间的依赖关系。
参考博客:
1: https://zhuanlan.zhihu.com/p/31547842知乎专栏
2: https://blog.csdn.net/bvl10101111/article/details/78470716CSDN