Attention机制
参考链接:
- 【NLP】Attention Model(注意力模型)学习总结(清晰易懂,较全面)
- https://jalammar.github.io/illustrated-transformer/(多图,非常经典!)
- https://blog.csdn.net/qq_37394634/article/details/102679096(含实现代码)
- https://nndl.github.io/
- https://github.com/philipperemy/keras-attention-mechanism/tree/0309dbf79da32c0d8d90925660fc4cc7fe53dc8a
- https://blog.csdn.net/uhauha2929/article/details/80733255
核心框架(Key-Value Attention):
将Source中的构成元素想象成是由一系列的<Key,Value>数据对构成,此时给定Target中的某个元素Query,通过计算Query和各个Key的相似性或者相关性,得到每个Key对应Value的权重系数,然后对Value进行加权求和,即得到了最终的Attention数值。所以本质上Attention机制是对Source中元素的Value值进行加权求和,而Query和Key用来计算对应Value的权重系数。
打分函数:
模型 | 公式 |
---|---|
加性模型 | 𝑠(𝒙, 𝒒) = v T t a n h ( W x + U q ) v^Ttanh(Wx + Uq) vTtanh(Wx+Uq |