问题:
答:
假设
q
i
,
j
q_{i,j}
qi,j 和
k
i
,
j
k_{i,j}
ki,j 分别表示矩阵
Q
Q
Q 和
K
K
K 的第
i
i
i 行第
j
j
j 列的元素,则矩阵
Q
K
T
QK^T
QKT 的第
i
i
i 行第
j
j
j 列的元素为:
( Q K T ) i , j = ∑ k = 1 d k q i , k k j , k (QK^T)_{i,j} = \sum_{k=1}^{d_k} q_{i,k}k_{j,k} (QKT)i,j=k=1∑dkqi,kkj,k
因此,我们可以将 Q K T QK^T QKT 中的每个元素表示为 d k d_k dk 个随机变量的线性组合。由于 q i , k q_{i,k} qi,k 和 k j , k k_{j,k} kj,k 的均值均为 0 0 0,因此 q i , k k j , k q_{i,k}k_{j,k} qi,kkj,k 的均值为:
E ( q i , k k j , k ) = E ( q i , k ) E ( k j , k ) = 0 \operatorname{E}(q_{i,k}k_{j,k}) = \operatorname{E}(q_{i,k})\operatorname{E}(k_{j,k})=0 E(qi,kkj,k)=E(qi,k)E(kj,k)=0
这是因为两个随机变量的乘积的期望等于各自的期望的乘积【注1】。因此, q i , k k j , k q_{i,k}k_{j,k} qi,kkj,k 的均值为 0 0 0。
此外, q i , k q_{i,k} qi,k 和 k j , k k_{j,k} kj,k 的方差均为 1 1 1,因此 q i , k k j , k q_{i,k}k_{j,k} qi,kkj,k 的方差为 1 1 1。由于这 d k d_k dk 个随机变量是独立的,因此 Q K T QK^T QKT 中的每个元素都是 d k d_k dk 个均值为 0 0 0,方差为 1 1 1 的随机变量的线性组合。
因此,根据线性组合的性质, Q K T QK^T QKT 中每个元素的方差为:
Var ( ( Q K T ) i , j ) = ∑ k = 1 d k Var ( q i , k k j , k ) = ∑ k = 1 d k Var ( q i , k ) Var ( k j , k ) = d k \operatorname{Var}((QK^T)_{i,j}) = \sum_{k=1}^{d_k} \operatorname{Var}(q_{i,k}k_{j,k}) = \sum_{k=1}^{d_k} \operatorname{Var}(q_{i,k})\operatorname{Var}(k_{j,k}) = d_k Var((QKT)i,j)=k=1∑dkVar(qi,kkj,k)=k=1∑dkVar(qi,k)Var(kj,k)=dk
因此,矩阵 Q K T QK^T QKT 的标准差为 d k \sqrt{d_k} dk。
注1:
两个随机变量
X
X
X 和
Y
Y
Y 的乘积的期望可以表示为:
E ( X Y ) = ∑ x ∑ y x y ⋅ p ( x , y ) \operatorname{E}(XY) = \sum_{x}\sum_{y} xy\cdot p(x,y) E(XY)=x∑y∑xy⋅p(x,y)
其中 p ( x , y ) p(x,y) p(x,y) 是 X X X 和 Y Y Y 的联合概率分布。如果 X X X 和 Y Y Y 是相互独立的,则有 p ( x , y ) = p ( x ) p ( y ) p(x,y) = p(x)p(y) p(x,y)=p(x)p(y),因此:
E ( X Y ) = ∑ x ∑ y x y ⋅ p ( x ) p ( y ) = ( ∑ x x ⋅ p ( x ) ) ( ∑ y y ⋅ p ( y ) ) = E ( X ) E ( Y ) \begin{aligned} \operatorname{E}(XY) &= \sum_{x}\sum_{y} xy\cdot p(x)p(y)\\ &= \left(\sum_x x \cdot p(x)\right)\left(\sum_y y \cdot p(y)\right)\\ &= \operatorname{E}(X)\operatorname{E}(Y) \end{aligned} E(XY)=x∑y∑xy⋅p(x)p(y)=(x∑x⋅p(x))(y∑y⋅p(y))=E(X)E(Y)
因此,如果 X X X 和 Y Y Y 是相互独立的,则它们的乘积的期望等于各自的期望的乘积。这个性质在概率论和统计学中经常被用到。在上面的问题中, q i , k q_{i,k} qi,k 和 k j , k k_{j,k} kj,k 是独立的随机变量,因此它们的乘积的期望等于各自的期望的乘积。由于它们的期望均为 0 0 0,因此 q i , k k j , k q_{i,k}k_{j,k} qi,kkj,k 的期望也为 0 0 0。