注意力中的尺度放缩详解

最新推荐文章于 2023-04-19 01:35:24 发布

khk_abc

最新推荐文章于 2023-04-19 01:35:24 发布

阅读量760

点赞数

分类专栏：学习笔记文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/khk_abc/article/details/121633515

版权

学习笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

直接上干货！！！
在注意力中我们经常看到以下公式：
$score_{atten}=softmax(\frac{QK^T}{\sqrt{d_k}})$
为什么就要除以 $d_{k}$ 呢？要除的话为什么要除以它而不是其他数呢？
这是因为存在以下推导：
$(QK^T)_{mn}=\sum_i^{d_k}q_{mi}k_{in}$
其中m、n表示两个矩阵相乘的第m行第n列的元素， $q_{mi}、k_{in}$ 都是期望为0、方差为1的分布且认为独立，所以 $q_{mi}k_{in}$ 的期望仍为0，方差为1，但是进行了 $d_k$ 个求和后，方差变成了 $d_k$ （ $D(X_1+X_2+...+X_n)=nD(X_1)$ ，其中 $X_1到X_n$ 遵循同一个分布且独立），这样，就会导致方差变大，而且又经过了 $s o f t m a x$ （其中的指数函数具有拉大两数差距的效果），导致注意力分数大部分集中到了最高概率的那一个，其他注意力分数接近于零，传过来的梯度接近于零，无法实现有效更新，所以对其除以 $\sqrt{d_k}$ （ $D(aX)=a^2D(X)$ ），将方差重新归为1，使其方差分布不受维度影响。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
注意力中的尺度放缩详解

直接上干货！！！在注意力中我们经常看到以下公式：scoreatten=softmax(QKTdk)score_{atten}=softmax(\frac{QK^T}{\sqrt{d_k}})scoreatten=softmax(dkQKT)为什么就要除以dkd_{k}dk呢？要除的话为什么要除以它而不是其他数呢？这是因为存在以下推导：(QKT)mn=∑idkqmikin(QK^T)_{mn}=\sum_i^{d_k}q_{mi}k_{in}(QKT)mn=i∑dkqmikin
复制链接

扫一扫

专栏目录

khk_abc CSDN认证博客专家 CSDN认证企业博客

码龄7年

5: 原创

37万+: 周排名

82万+: 总排名

3552: 访问

: 等级

63: 积分

0: 粉丝

3: 获赞

1: 评论

2: 收藏

私信

关注

热门文章

分类专栏

最新评论

tf.nn.avg_pooling踩坑
貌潘诗李: 在TF模型转Pytorch的时候遇到了这个问题，Pytorch下的nn.AvgPool2d不管补零与否，总是计算filter内的均值，然后导致TF转化成Pytorch的模型测试效果很差。。暂时还没找到Pytorch中与TF相同的平均池化操作，所以想请教下大佬。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。