transformer中的attention为什么scaled?

最新推荐文章于 2023-11-30 09:40:21 发布

sliderSun

最新推荐文章于 2023-11-30 09:40:21 发布

阅读量4.4k

点赞数 9

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37947156/article/details/100082543

版权

《Attention Is All You Need》中解释是：向量的点积结果会很大，将softmax函数push到梯度很小的区域，scaled会缓解这种现象。怎么理解将sotfmax函数push到梯度很小区域？还有为什么scaled是维度的根号，不是其他的数？

Google的一般化Attention思路也是一个编码序列的方案，因此我们也可以认为它跟RNN、CNN一样，都是一个序列编码的层。

前面给出的是一般化的框架形式的描述，事实上Google给出的方案是很具体的。首先，它先把Attention的定义给了出来：

那怎么理解这种结构呢？我们不妨逐个向量来看。

其中ZZ是归一化因子。事实上q,k,v分别是query,key,value的简写，K,V是一一对应的，它们就像是key-value的关系，那么上式的意思就是通过qt这个query，通过与各个ks内积的并softmax的方式，来得到qt与各个vsvs的相似度，然后加权求和，得到一个dv维的向量。其中因子起到调节作用，使得内积不至于太大（太大的话softmax后就非0即1了，不够“soft”了）

以下参考自知乎：https://www.zhihu.com/question/339723385

1. 为什么比较大的输入会使得softmax的梯度变得很小？

对于一个输入向量，softmax函数将其映射/归一化到一个分布。在这个过程中，softmax先用一个自然底数e 将输入中的元素间差距先“拉大”，然后归一化为一个分布。假设某个输入 x中最大的的元素下标是k，如果输入的数量级变大（每个元素都很大），那么会非常接近1。

我们不妨把在不同取值下，对应的的全部绘制出来。代码如下：

可以看到，数量级对softmax得到的分布影响非常大。在数量级较大时，softmax将几乎全部的概率分布都分配给了最大值对应的标签。

2. 维度与点积大小的关系是怎么样的，为什么使用维度的根号来放缩？

针对为什么维度会影响点积的大小，在论文的脚注中其实给出了一点解释：

假设向量 q 和 k的各个分量是互相独立的随机变量，均值是0，方差是1，那么点积 q.k 的均值是0，方差是。这里我给出一点更详细的推导：

关注

9
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
transformer中的attention为什么scaled?

《Attention Is All You Need》中解释是：向量的点积结果会很大，将softmax函数push到梯度很小的区域，scaled会缓解这种现象。怎么理解将sotfmax函数push到梯度很小区域？还有为什么scaled是维度的根号，不是其他的数？Google的一般化Attention思路也是一个编码序列的方案，因此我们也可以认为它跟RNN、CNN一样，都是一个序列编码的层。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。