ML 2021 Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth

动机
  1. 基于注意力的架构在机器学习中已经无处不在,并在transformer网络中发现了有效的用途。因此,开发工具来理解transformer的内部工作原理和一般注意力是至关重要的,这既有助于阐明现有的模型,也有助于设计更有效的未来模型。然而,对于基于注意力的架构,其具有效用的原因的理解仍然有限。
方法

这项工作提出了一种理解自注意网络(SANs)的新方法。这项工作提供了关于由多个自我注意层堆叠而成的网络的操作和感应偏向的新见解。它们的输出可以分解为一个较小项的总和,每个项都涉及一个跨层注意头序列的操作。通过这种分解,证明了自我注意对”令牌均匀性“具有强烈的诱导偏向。具体地说,在没有跳连接或多层感知器的情况下,输出按指数倍数收敛到一个秩-1矩阵。另一方面,跳连接和MLP会阻止输出退化。即仅仅由(Self-)Attention构成的网络(去掉FFN、残差连接、LN)中,随着输入在网络中向前传播,注意力分布的rank会逐渐降低,最后退化成一个uniform的分布。而Transformer中的其他构件(FFN、残差连接)可以缓解这个问题。

在此过程中,提出了一种新的路径分解方法来研究自注意力网络。即,将SAN分解为一个弱监督路径的线性组合,其中每条路径对应一个具有深度单一头部的SAN。直观地说,可以将原始网络的每一层中的自注意力头部视为不同的入口,一条路径遵循一系列入口选择,每层一个入口。结合秩崩溃分析,结果表明,具有跳连接的深度SAN表现为一个弱监督浅层网络的集合。

SAN是由多头自注意力层构成,每个多头自注意力层具有多个头部。每个SAN层的输出是通过将所有注意力头部的单独输出(沿着最后

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值