https://www.jianshu.com/p/1c24eba3ba9c
本论文就提出了两种简单但却有效的注意力机制,全局注意力(global)和局部注意力(local)。
本文提出的两种注意力机制(global & local)其本质区别在于,全局注意力会参考所有输入词,而局部注意力只会考虑部分输入词。
- 全局注意力
该注意力机制重点在于考虑所有输入的隐状态来生成语境向量。 - 局部注意力
局部注意力机制其实就是为了解决全局注意力机制计算开销过大的问题,比如篇章级或者长句的翻译,遍历所有的隐状态来求对齐向量显然比较困难,因此,局部注意力,如其名,只会关注部分隐状态。因此,该机制的重点就在于如何找寻与预测词对应的隐状态。而论文中也给出了2种找寻的办法