©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 追一科技
研究方向 | NLP、神经网络
当前 Transformer 架构用的最多的注意力机制,全称为“Scaled Dot-Product Attention”,其中“Scaled”是因为在 转置相乘之后还要除以一个 在做 Softmax(下面均不失一般性地假设 ):
在《浅谈Transformer的初始化、参数化与标准化》[1] 中,我们已经初步解释了除以 的缘由。而在这篇文章中,笔者将从“熵不变性”的角度来理解这个缩放操作,并且得到一个新的缩放因子。在 MLM 的实验显示,新的缩放因子具有更好的长度外推性能。
熵不变性
我们将一般的 Scaled Dot-Product Attention 改写成:
其中 是缩放因子,它跟 无关,但原则上可以跟长度 、维度 等参数有关,目前主流的就是 。
本文提出一个观点:
为了使得模型结果能够更好地泛化到未知长度,Attention 机制的设计应该使得 尽量具备熵不变性。
怎么理解这句话呢?首先,泛化到未知长度,指的是预测长度和训练不一致时也能有不错的效果,比如 训练然后外推到 测试。我们知道,使用 RoPE 之类的相对位置编码的模型,对长度具有比较好的外推性,但我们依然可以通过更好的设计来增强这种外推性,比如熵不变性就是其中之一。
具体来说, 可以视为 为条件、 为随机变量的条件分布,它的熵为:
熵不变性是指, 应该对长度 不敏感。更具体一点,就是如果在已有的 token 基础上,再补充几个 token,那么新算出来各个 自然也会有所改变,但我们希望 不要有太大改变。