1、attention 理解方式
理解 : key 与 query 生成权重 α ,α 与value 生成 attention value
- 注意:在tensorflow中 seq2seq + attention 的 attention 的 key 与 value 是相同的,都是解码器的输出 ,
- 但是在其他框架中就不一定了,例如 transformer / bert
2、soft attention、global attention
- global attention 与 soft attention 结构完全一样
2、hard attention
1、Soft Attention中是对于每个Encoder的Hidden State会match一个概 率值,而在Hard Attention会直接找一个特定的
单词概率为1,而 其它对应概率为0.
3、local attention
4、self attention(transformer)
https://blog.csdn.net/qq_16555103/article/details/100920480 ------------ transformer、bert网络