Multi-head整理—为什么 Transformer 需要进行 Multi-head Attention?

一.Attention is all you need论文中讲模型分为多个头,形成多个子空间,每个头关注不同方面的信息。 如果Multi-Head作用是关注句子的不同方面,那么不同的head就应该关注不同的Token;当然也有可能是关注的pattern相同,但是关注的内容不同,即V不同。 但是大量的paper表明,transformer或Bert的特定层有独特的功能,...
摘要由CSDN通过智能技术生成
  • 一.Attention is all you need论文中讲模型分为多个头,形成多个子空间,每个头关注不同方面的信息。

    • 如果Multi-Head作用是关注句子的不同方面,那么不同的head就应该关注不同的Token;当然也有可能是关注的pattern相同,但是关注的内容不同,即V不同。

    • 但是大量的paper表明,transformer或Bert的特定层有独特的功能,底层更偏向于关注语法;顶层更偏向于关注语义。

    • 所以对Multi-head而言,同一层Transformer_block关注的方面应该整体是一致的。不同的head关注点也是一样。但是可视化同一层的head后,发现总有那么一两个头独一无二的,和其他头的关注不一样。

  • 二.问题:

    • 1.在一层中,不同头之间差距有多少(hi度量),这个差距的作用是什么?

    • 2.同一层中,不同头可能对hi带来影响?

    • 3.hi是否随层数的变化而变化?
    • 4.初始化如何影响hi?能否通过初始化控制hi?
  • 三.对于第一个问题前半部分和第三个问题?

    • 如下图:从第一层的深蓝色到第六层的浅蓝色再到第十二层的深红色,如果趋势可信,则能推断:头之间的差距是随着层数的加大而变小。差距变小就说明不同头之间的方差在随着层数的增大而减小;

    • 但是这种随着层数变大,不同层头之间的差距在变小,这种差距的变小的作用,还没有人证明解释。
    • 5
      点赞
    • 17
      收藏
      觉得还不错? 一键收藏
    • 0
      评论

    “相关推荐”对你有帮助么?

    • 非常没帮助
    • 没帮助
    • 一般
    • 有帮助
    • 非常有帮助
    提交
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值