dddd
1. This post is all you need(①多头注意力机制原理) – 月来客栈
2. This post is all you need(②位置编码与编码解码过程) – 月来客栈
3. This post is all you need(③网络结构与自注意力实现) – 月来客栈
4. This post is all you need(④Transformer实现过程) – 月来客栈
5. This post is all you need(⑤基于Transformer的翻译模型) – 月来客栈
看完自己总结一下,我真的他妈的苦注意力机制久矣!!!
把GAT一会也整了,不解决问题就会存在,一遍遍恶心我
深度学习attention机制中的Q,K,V分别是从哪来的? - lllltdaf的回答 - 知乎 https://www.zhihu.com/question/325839123/answer/1903376265