详情:写的比较好
Global Attention
General效果一般较好
Local Attention
两种:第一种直接选择源序列中的第t个为中心p,然后取两侧window-size大小的词作为context;第二种,先根据目标序列决定位置p,然后再按高斯分布对window内单词进行加权。
Hierarchy Attention:感觉没啥创新,就是层级概念的提出
Multi-Dimensional Attention:不再产生一个scaler,而是产生一个高维度的向量用于加权。
Attention Over Attention:column是query to document ;row是document to query
Self Attention:写了好多次了