​从熵不变性看Attention的Scale操作

e3a39ffe1a77eceac9fa53657c16c3f1.gif

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

当前 Transformer 架构用的最多的注意力机制,全称为“Scaled Dot-Product Attention”,其中“Scaled”是因为在 转置相乘之后还要除以一个 在做 Softmax(下面均不失一般性地假设 ):

da2f603d85e17c1673c9d04e93dd5fa2.png

在《浅谈Transformer的初始化、参数化与标准化》[1] 中,我们已经初步解释了除以 的缘由。而在这篇文章中,笔者将从“熵不变性”的角度来理解这个缩放操作,并且得到一个新的缩放因子。在 MLM 的实验显示,新的缩放因子具有更好的长度外推性能

122dc439b97780d05326bcea7927c8b8.png

熵不变性

我们将一般的 Scaled Dot-Product Attention 改写成:

83f2f88586f9126db0334b32feb05080.png

其中 是缩放因子,它跟 无关,但原则上可以跟长度 、维度 等参数有关,目前主流的就是 。

本文提出一个观点:

为了使得模型结果能够更好地泛化到未知长度,Attention 机制的设计应该使得 尽量具备熵不变性

怎么理解这句话呢?首先,泛化到未知长度,指的是预测长度和训练不一致时也能有不错的效果,比如 训练然后外推到 测试。我们知道,使用 RoPE 之类的相对位置编码的模型,对长度具有比较好的外推性,但我们依然可以通过更好的设计来增强这种外推性,比如熵不变性就是其中之一。

具体来说, 可以视为 为条件、 为随机变量的条件分布,它的熵为:

076c3ecfe81d91cac69c82d561778c6a.png

熵不变性是指, 应该对长度 不敏感。更具体一点,就是如果在已有的 token 基础上,再补充几个 token,那么新算出来各个 自然也会有所改变,但我们希望 不要有太大改变。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值