Transformer — PaddleEdu documentation
Attention的理解:
当前token是Query,和其他token的Key算相关性,得到其他token的权重分数,分别用其他token的权重分数乘Value,然后做一个类似MOE的语义融合,得到当前token的Value。
1. 为什么Transformer 需要进行 Multi-head Attention?
Multi-head的初衷是让每个头关注不同的语义。
transformer 特定层有独特的功能,底层更偏向于关注语法;顶层更偏向于关注语义。
但是在实际操作中可以去掉一些头,过多的头会导致过犹不及。
Attention is all you need论文中讲模型分为多个头,形成多个子空间,每个头关注不同方面的信息。
如果 Multi-Head 作用是关注句子的不同方面