-
一.Attention is all you need论文中讲模型分为多个头,形成多个子空间,每个头关注不同方面的信息。
-
如果Multi-Head作用是关注句子的不同方面,那么不同的head就应该关注不同的Token;当然也有可能是关注的pattern相同,但是关注的内容不同,即V不同。
-
但是大量的paper表明,transformer或Bert的特定层有独特的功能,底层更偏向于关注语法;顶层更偏向于关注语义。
- 所以对Multi-head而言,同一层Transformer_block关注的方面应该整体是一致的。不同的head关注点也是一样。但是可视化同一层的head后,发现总有那么一两个头独一无二的,和其他头的关注不一样。
-
-
二.问题:
-
1.在一层中,不同头之间差距有多少(hi度量),这个差距的作用是什么?
-
2.同一层中,不同头可能对hi带来影响?
- 3.hi是否随层数的变化而变化?
- 4.初始化如何影响hi?能否通过初始化控制hi?
-
-
三.对于第一个问题前半部分和第三个问题?
-
如下图:从第一层的深蓝色到第六层的浅蓝色再到第十二层的深红色,如果趋势可信,则能推断:头之间的差距是随着层数的加大而变小。差距变小就说明不同头之间的方差在随着层数的增大而减小;
- 但是这种随着层数变大,不同层头之间的差距在变小,这种差距的变小的作用,还没有人证明解释。
-
Multi-head整理—为什么 Transformer 需要进行 Multi-head Attention?
最新推荐文章于 2024-05-23 21:36:14 发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)