self-attention中根号d的由来

问题:
在这里插入图片描述

答:
假设 q i , j q_{i,j} qi,j k i , j k_{i,j} ki,j 分别表示矩阵 Q Q Q K K K 的第 i i i 行第 j j j 列的元素,则矩阵 Q K T QK^T QKT 的第 i i i 行第 j j j 列的元素为:

( Q K T ) i , j = ∑ k = 1 d k q i , k k j , k (QK^T)_{i,j} = \sum_{k=1}^{d_k} q_{i,k}k_{j,k} (QKT)i,j=k=1dkqi,kkj,k

因此,我们可以将 Q K T QK^T QKT 中的每个元素表示为 d k d_k dk 个随机变量的线性组合。由于 q i , k q_{i,k} qi,k k j , k k_{j,k} kj,k 的均值均为 0 0 0,因此 q i , k k j , k q_{i,k}k_{j,k} qi,kkj,k 的均值为:

E ⁡ ( q i , k k j , k ) = E ⁡ ( q i , k ) E ⁡ ( k j , k ) = 0 \operatorname{E}(q_{i,k}k_{j,k}) = \operatorname{E}(q_{i,k})\operatorname{E}(k_{j,k})=0 E(qi,kkj,k)=E(qi,k)E(kj,k)=0

这是因为两个随机变量的乘积的期望等于各自的期望的乘积【注1】。因此, q i , k k j , k q_{i,k}k_{j,k} qi,kkj,k 的均值为 0 0 0

此外, q i , k q_{i,k} qi,k k j , k k_{j,k} kj,k 的方差均为 1 1 1,因此 q i , k k j , k q_{i,k}k_{j,k} qi,kkj,k 的方差为 1 1 1。由于这 d k d_k dk 个随机变量是独立的,因此 Q K T QK^T QKT的每个元素都是 d k d_k dk 个均值为 0 0 0,方差为 1 1 1 的随机变量的线性组合。

因此,根据线性组合的性质, Q K T QK^T QKT 中每个元素的方差为:

Var ⁡ ( ( Q K T ) i , j ) = ∑ k = 1 d k Var ⁡ ( q i , k k j , k ) = ∑ k = 1 d k Var ⁡ ( q i , k ) Var ⁡ ( k j , k ) = d k \operatorname{Var}((QK^T)_{i,j}) = \sum_{k=1}^{d_k} \operatorname{Var}(q_{i,k}k_{j,k}) = \sum_{k=1}^{d_k} \operatorname{Var}(q_{i,k})\operatorname{Var}(k_{j,k}) = d_k Var((QKT)i,j)=k=1dkVar(qi,kkj,k)=k=1dkVar(qi,k)Var(kj,k)=dk

因此,矩阵 Q K T QK^T QKT 的标准差为 d k \sqrt{d_k} dk

注1:
两个随机变量 X X X Y Y Y 的乘积的期望可以表示为:

E ⁡ ( X Y ) = ∑ x ∑ y x y ⋅ p ( x , y ) \operatorname{E}(XY) = \sum_{x}\sum_{y} xy\cdot p(x,y) E(XY)=xyxyp(x,y)

其中 p ( x , y ) p(x,y) p(x,y) X X X Y Y Y 的联合概率分布。如果 X X X Y Y Y 是相互独立的,则有 p ( x , y ) = p ( x ) p ( y ) p(x,y) = p(x)p(y) p(x,y)=p(x)p(y),因此:

E ⁡ ( X Y ) = ∑ x ∑ y x y ⋅ p ( x ) p ( y ) = ( ∑ x x ⋅ p ( x ) ) ( ∑ y y ⋅ p ( y ) ) = E ⁡ ( X ) E ⁡ ( Y ) \begin{aligned} \operatorname{E}(XY) &= \sum_{x}\sum_{y} xy\cdot p(x)p(y)\\ &= \left(\sum_x x \cdot p(x)\right)\left(\sum_y y \cdot p(y)\right)\\ &= \operatorname{E}(X)\operatorname{E}(Y) \end{aligned} E(XY)=xyxyp(x)p(y)=(xxp(x))(yyp(y))=E(X)E(Y)

因此,如果 X X X Y Y Y 是相互独立的,则它们的乘积的期望等于各自的期望的乘积。这个性质在概率论和统计学中经常被用到。在上面的问题中, q i , k q_{i,k} qi,k k j , k k_{j,k} kj,k 是独立的随机变量,因此它们的乘积的期望等于各自的期望的乘积。由于它们的期望均为 0 0 0,因此 q i , k k j , k q_{i,k}k_{j,k} qi,kkj,k 的期望也为 0 0 0

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Hailey的算法学习笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值