Multi-head整理—为什么 Transformer 需要进行 Multi-head Attention？

最新推荐文章于 2024-05-23 21:36:14 发布

咕噜咕噜day

最新推荐文章于 2024-05-23 21:36:14 发布

阅读量4.3k

点赞数 5

分类专栏：自然语言处理文章标签： Multi-head transformer head self-attention

本文链接：https://blog.csdn.net/qq_36533552/article/details/102529241

版权

一.Attention is all you need论文中讲模型分为多个头，形成多个子空间，每个头关注不同方面的信息。如果Multi-Head作用是关注句子的不同方面，那么不同的head就应该关注不同的Token；当然也有可能是关注的pattern相同，但是关注的内容不同，即V不同。但是大量的paper表明，transformer或Bert的特定层有独特的功能，...

摘要由CSDN通过智能技术生成

一.Attention is all you need论文中讲模型分为多个头，形成多个子空间，每个头关注不同方面的信息。
- 如果Multi-Head作用是关注句子的不同方面，那么不同的head就应该关注不同的Token；当然也有可能是关注的pattern相同，但是关注的内容不同，即V不同。
- 但是大量的paper表明，transformer或Bert的特定层有独特的功能，底层更偏向于关注语法；顶层更偏向于关注语义。
- 所以对Multi-head而言，同一层Transformer_block关注的方面应该整体是一致的。不同的head关注点也是一样。但是可视化同一层的head后，发现总有那么一两个头独一无二的，和其他头的关注不一样。
二.问题：
- 1.在一层中，不同头之间差距有多少（hi度量），这个差距的作用是什么？
- 2.同一层中，不同头可能对hi带来影响？
- 3.hi是否随层数的变化而变化？
- 4.初始化如何影响hi？能否通过初始化控制hi？
三.对于第一个问题前半部分和第三个问题？
- 如下图：从第一层的深蓝色到第六层的浅蓝色再到第十二层的深红色，如果趋势可信，则能推断：头之间的差距是随着层数的加大而变小。差距变小就说明不同头之间的方差在随着层数的增大而减小；
- 但是这种随着层数变大，不同层头之间的差距在变小，这种差距的变小的作用，还没有人证明解释。

最低0.47元/天解锁文章

咕噜咕噜day

关注

5
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Multi-head整理—为什么 Transformer 需要进行 Multi-head Attention？

一.Attention is all you need论文中讲模型分为多个头，形成多个子空间，每个头关注不同方面的信息。如果Multi-Head作用是关注句子的不同方面，那么不同的head就应该关注不同的Token；当然也有可能是关注的pattern相同，但是关注的内容不同，即V不同。但是大量的paper表明，transformer或Bert的特定层有独特的功能，...
复制链接

扫一扫