从熵不变性看Attention的Scale操作

PaperWeekly

于 2021-12-30 11:05:22 发布

阅读量1.2k

点赞数

文章标签：机器学习人工智能深度学习计算机视觉 svg

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/122247805

版权

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

当前 Transformer 架构用的最多的注意力机制，全称为“Scaled Dot-Product Attention”，其中“Scaled”是因为在转置相乘之后还要除以一个在做 Softmax（下面均不失一般性地假设）：

在《浅谈Transformer的初始化、参数化与标准化》[1] 中，我们已经初步解释了除以的缘由。而在这篇文章中，笔者将从“熵不变性”的角度来理解这个缩放操作，并且得到一个新的缩放因子。在 MLM 的实验显示，新的缩放因子具有更好的长度外推性能。

熵不变性

我们将一般的 Scaled Dot-Product Attention 改写成：

其中是缩放因子，它跟无关，但原则上可以跟长度、维度等参数有关，目前主流的就是。

本文提出一个观点：

为了使得模型结果能够更好地泛化到未知长度，Attention 机制的设计应该使得尽量具备熵不变性。

怎么理解这句话呢？首先，泛化到未知长度，指的是预测长度和训练不一致时也能有不错的效果，比如训练然后外推到测试。我们知道，使用 RoPE 之类的相对位置编码的模型，对长度具有比较好的外推性，但我们依然可以通过更好的设计来增强这种外推性，比如熵不变性就是其中之一。

具体来说，可以视为为条件、为随机变量的条件分布，它的熵为：

熵不变性是指，应该对长度不敏感。更具体一点，就是如果在已有的 token 基础上，再补充几个 token，那么新算出来各个自然也会有所改变，但我们希望不要有太大改变。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
从熵不变性看Attention的Scale操作

©PaperWeekly 原创 ·作者 | 苏剑林单位 | 追一科技研究方向 | NLP、神经网络当前 Transformer 架构用的最多的注意力机制，全称为“Scaled Dot-P...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。