文章目录
【一】 通过 Image Captioning 理解 Attention
- 没加 Attention
- 加了 Attention( a \bm a a 是 L \bm L L 个区域的 权重矩阵, d \bm d d 就是生成的 w o r d \bm {word} word)
【二】 通过 Machine Translation 理解 Attention
- 没加 Attention
- 加了 Attention
;
【三】 Transformer(Attention is all you need)
- 简化解释版本
- 谷歌动画演示版本
- 详细解释版本
;
【四】 Self - Attention(非时序类模型)
- Encoder-Block
- Self-Attention(Q K V 细节)
- Multi - Head(多角度)
- Positional Encoding(位置编码)