self-attention中根号d的由来

Hailey的算法学习笔记

已于 2023-06-12 11:40:07 修改

阅读量464

点赞数 1

文章标签：矩阵深度学习

于 2023-06-12 11:38:12 首次发布

本文链接：https://blog.csdn.net/weixin_41168869/article/details/131164001

版权

问题：
在这里插入图片描述

答：
假设 $q_{i,j}$ 和 $k_{i,j}$ 分别表示矩阵 $Q$ 和 $K$ 的第 $i$ 行第 $j$ 列的元素，则矩阵 $QK^T$ 的第 $i$ 行第 $j$ 列的元素为：

$(QK^T)_{i,j} = \sum_{k=1}^{d_k} q_{i,k}k_{j,k}$

因此，我们可以将 $QK^T$ 中的每个元素表示为 $d_k$ 个随机变量的线性组合。由于 $q_{i,k}$ 和 $k_{j,k}$ 的均值均为 $0$ ，因此 $q_{i,k}k_{j,k}$ 的均值为：

$\operatorname{E}(q_{i,k}k_{j,k}) = \operatorname{E}(q_{i,k})\operatorname{E}(k_{j,k})=0$

这是因为两个随机变量的乘积的期望等于各自的期望的乘积【注1】。因此， $q_{i,k}k_{j,k}$ 的均值为 $0$ 。

此外， $q_{i,k}$ 和 $k_{j,k}$ 的方差均为 $1$ ，因此 $q_{i,k}k_{j,k}$ 的方差为 $1$ 。由于这 $d_k$ 个随机变量是独立的，因此 $QK^T$ 中的每个元素都是 $d_k$ 个均值为 $0$ ，方差为 $1$ 的随机变量的线性组合。

因此，根据线性组合的性质， $QK^T$ 中每个元素的方差为：

$\operatorname{Var}((QK^T)_{i,j}) = \sum_{k=1}^{d_k} \operatorname{Var}(q_{i,k}k_{j,k}) = \sum_{k=1}^{d_k} \operatorname{Var}(q_{i,k})\operatorname{Var}(k_{j,k}) = d_k$

因此，矩阵 $QK^T$ 的标准差为 $\sqrt{d_k}$ 。

注1：
两个随机变量 $X$ 和 $Y$ 的乘积的期望可以表示为：

$\operatorname{E}(XY) = \sum_{x}\sum_{y} xy\cdot p(x,y)$

其中 $p (x, y)$ 是 $X$ 和 $Y$ 的联合概率分布。如果 $X$ 和 $Y$ 是相互独立的，则有 $p (x, y) = p (x) p (y)$ ，因此：

$\begin{aligned} \operatorname{E}(XY) &= \sum_{x}\sum_{y} xy\cdot p(x)p(y)\\ &= \left(\sum_x x \cdot p(x)\right)\left(\sum_y y \cdot p(y)\right)\\ &= \operatorname{E}(X)\operatorname{E}(Y) \end{aligned}$

因此，如果 $X$ 和 $Y$ 是相互独立的，则它们的乘积的期望等于各自的期望的乘积。这个性质在概率论和统计学中经常被用到。在上面的问题中， $q_{i,k}$ 和 $k_{j,k}$ 是独立的随机变量，因此它们的乘积的期望等于各自的期望的乘积。由于它们的期望均为 $0$ ，因此 $q_{i,k}k_{j,k}$ 的期望也为 $0$ 。

Hailey的算法学习笔记

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
self-attention中根号d的由来

是相互独立的，则它们的乘积的期望等于各自的期望的乘积。这个性质在概率论和统计学中经常被用到。是独立的随机变量，因此它们的乘积的期望等于各自的期望的乘积。这是因为两个随机变量的乘积的期望等于各自的期望的乘积【注1】。个随机变量的线性组合。因此，根据线性组合的性质，个随机变量是独立的，
复制链接

扫一扫