问题描述
以向量横向排列(一行一个向量)举例,
对于各个向量均值为0的矩阵
X
X
X来说,其协方差矩阵标记为
Σ
\Sigma
Σ,进行某一变换
W
W
W,结果是
X
^
=
X
W
\hat{X}=XW
X^=XW,变换后的协方差矩阵标记为
Σ
^
\hat\Sigma
Σ^,问
Σ
\Sigma
Σ和
Σ
^
\hat\Sigma
Σ^的关系?
解答/记忆方法
对于均值为0一维的数据来说,对每一个数字都乘以系数
a
a
a,那么其方差会变为原来的
a
2
a^2
a2倍。
正式一点的表达是均值0的一维分布
Y
Y
Y的方差
μ
\mu
μ,与变换后的分布
Y
^
=
a
Y
\hat{Y}=aY
Y^=aY的方差
μ
^
\hat{\mu}
μ^的关系是
μ
^
=
a
2
μ
\hat{\mu}=a^2\mu
μ^=a2μ。
推广到多维,多维数据的变换用了
W
W
W来表示,但是方差也是
W
W
W的“平方倍”。但是线代中左乘不等于右乘,线代中的结论是
Σ
^
=
W
T
Σ
W
\hat{\Sigma}=W^T\Sigma W
Σ^=WTΣW。
其实是非常相似的,假设左乘和右乘等价,那么也是“
Σ
^
=
W
2
Σ
\hat{\Sigma}=W^2\Sigma
Σ^=W2Σ”(不存在这个写法,理解为主)。
另一种从矩阵单个元素的理解方法,
W
T
W
W^TW
WTW运算一下,其实就是每个维度都分配一个平方值,中间加入
Σ
\Sigma
Σ矩阵,相当于给矩阵中的每个维度的方差都分配了一个平方值,这与一维的思想是一致的。
数学证明
显然上面的结论只是为了方便记忆。数学推一下其实也挺简单:
对于各个向量均值0的矩阵
X
X
X,其协方差矩阵
Σ
=
1
m
X
T
X
\Sigma=\frac1mX^TX
Σ=m1XTX,
X
X
X变换后变成
X
W
XW
XW,其协方差矩阵就是
Σ
^
=
1
m
(
X
W
)
T
X
W
\hat{\Sigma}=\frac1m(XW)^TXW
Σ^=m1(XW)TXW,问他们俩的关系?稍微看下就知道
Σ
^
=
1
m
(
X
W
)
T
X
W
=
1
m
W
T
X
T
X
W
\hat{\Sigma}=\frac1m(XW)^TXW=\frac1mW^TX^TXW
Σ^=m1(XW)TXW=m1WTXTXW
Σ
=
1
m
X
T
X
\Sigma=\frac1mX^TX
Σ=m1XTX
所以
Σ
^
=
W
T
Σ
W
\hat{\Sigma}=W^T\Sigma W
Σ^=WTΣW
一般应用
可能你也发现了,上述结论成立的前提,都是均值为0,所以对矩阵进行变换时,不会直接对 X X X,而是对减掉了各个分量的平均值后的 X X X,这样才会有以上性质。