(《机器学习》完整版系列)附录 ——8、协方差矩阵的特征值

由于求协方差矩阵的特征值在机器学习中具有非常重要的地位,为此,我们专讨论它。

协方差矩阵的特征值

由于求协方差矩阵的特征值具有非常重要的地位,为此,我们专讨论它。

(0)随机变量的方差、两随机变量的协方差

对于随机变量 x x x的观察值(样本)集 { x j } j = 1 m \{x_j\}_{j=1}^m {xj}j=1m,有均值和方差(许多同学总是把方差(估值)中的系数错误地记成了 1 m \frac{1}{m} m1):
(样本)均值: μ = 1 m ∑ j = 1 m x j (样本)方差: σ 2 = 1 m − 1 ∑ j = 1 m ( x j − μ ) 2 \begin{align} \text{(样本)均值:}\mu & =\frac{1}{m}\sum_{j=1}^mx_j \tag{D1} \\ \text{(样本)方差:}\sigma ^2 & =\frac{1}{m-1}\sum_{j=1}^m(x_j-\mu)^2 \tag{D2} \end{align} (样本)均值:μ(样本)方差:σ2=m1j=1mxj=m11j=1m(xjμ)2(D1)(D2)
注:若定义随机变量 x x x的数学期望 E   ( x ) \mathbb{E}\, (x) E(x)和方差 V a r ( x ) \mathrm{Var}(x) Var(x)分别为 μ , σ 2 \mu ,\sigma ^2 μ,σ2,则这里的样本均值和样本方差分别为其对应的估值,这时为区别,这里就应改用 μ ^ , σ ^ \hat{\mu},\hat{\sigma} μ^,σ^,后续情况类似。

若数据集已“中心化” ,则
μ = 0 , σ 2 = 1 m − 1 ∑ j = 1 m x j 2 \begin{align} \mu =0,\quad \sigma ^2 =\frac{1}{m-1}\sum_{j=1}^mx_j^2 \tag{D3} \end{align} μ=0,σ2=m11j=1mxj2(D3)

设随机变量 x x x y y y的样本集分别为 { x j } j = 1 m \{x_j\}_{j=1}^m {xj}j=1m { y j } j = 1 m \{y_j\}_{j=1}^m {yj}j=1m,则可定义
协方差: σ x y = 1 m − 1 ∑ j = 1 m ( x j − μ x ) ( y j − μ y ) 相关系数: ρ x y = σ x y σ x σ y \begin{align} \text{协方差:}\sigma_{xy} & =\frac{1}{m-1}\sum_{j=1}^m(x_j-\mu_x)(y_j-\mu_y) \tag{D4} \\ \text{相关系数:}\rho _{xy} & =\frac{\sigma_{xy} }{\sigma_{x} \sigma_{y} } \tag{D5} \end{align} 协方差:σxy相关系数:ρxy=m11j=1m(xjμx)(yjμy)=σxσyσxy(D4)(D5)
其中, μ x \mu_x μx对应于式(D1), σ x 2 \sigma_{x}^2 σx2对应于式(D2),其余类推。

(1)随机向量 x \boldsymbol{x} x样本集 X \mathbf{X} X的协方差矩阵

现在把随机变量扩展成随机向量 x = ( x 1 ; x 2 ; ⋯   ; x d ) \boldsymbol{x}=(x_1;x_2;\cdots;x_d) x=(x1;x2;;xd),样本集为 { x j } j = 1 m \{\boldsymbol{x}_j\}_{j=1}^m {xj}j=1m,每个分量 x i x_i xi均为随机变量,将样本集作为矩阵
X = ( x 1 , x 2 , ⋯   , x m ) = ( x 11 x 12 ⋯ x 1 m x 21 x 22 ⋯ x 2 m ⋮ ⋮ ⋮ ⋮ x d 1 x d 2 ⋯ x d m ) \begin{align*} \mathbf{X} & =(\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_m)\notag \\ & = \left(\begin{matrix} x_{11} & x_{12} & \cdots & x_{1m} \\ x_{21} & x_{22} & \cdots & x_{2m} \\ \vdots & \vdots & \vdots & \vdots \\ x_{d1} & x_{d2} & \cdots & x_{dm} \\ \end{matrix}\right) \end{align*} X=(x1,x2,,xm)= x11x21xd1x12x22xd2x1mx2mxdm
其中,矩阵每列是一个向量样本(共 m m m个样本),每行是一个分量的样本集,分量 x i x_i xi的样本集为 { x i j } j = 1 m \{x_{ij}\}_{j=1}^m {xij}j=1m
依上述定义,每个分量 x i x_i xi有上述样本均值和样本方差,两分量 x i 1 , x i 2 x_{i_1},x_{i_2} xi1,xi2间有协方差和相关系数。

现在假定对向量样本集 X \mathbf{X} X的各分量作中心化(即对行作中心化)得到向量样本集为 X ′ \mathbf{X'} X
则由式(D1)、式(D2)有
X ′ X ′ T = ( ∑ j = 1 m x 1 j ′ 2 ∑ j = 1 m x 1 j ′ x 2 j ′ ⋯ ∑ j = 1 m x 1 j ′ x d j ′ ∑ j = 1 m x 2 j ′ x 1 j ′ ∑ j = 1 m x 2 j ′ 2 ⋯ ∑ j = 1 m x 2 j ′ x d j ′ ⋮ ⋮ ⋮ ⋮ ∑ j = 1 m x d j ′ x 1 j ′ ∑ j = 1 m x d j ′ x 2 j ′ ⋯ ∑ j = 1 m x d j ′ 2 ) = ( m − 1 ) ( σ x 1 ′ 2 σ x 1 ′ x 2 ′ ⋯ σ x 1 ′ x d ′ σ x 2 ′ x 1 ′ σ x 2 ′ 2 ⋯ σ x 2 ′ x d ′ ⋮ ⋮ ⋮ ⋮ σ x d ′ x 1 ′ σ x d ′ x 2 ′ ⋯ σ x d ′ 2 ) \begin{align} \mathbf{X'}\mathbf{X'}^\mathrm{T} & =\left(\begin{matrix} \sum_{j=1}^m{x'_{1j}}^2 & \sum_{j=1}^mx'_{1j}x'_{2j} & \cdots & \sum_{j=1}^mx'_{1j}x'_{dj} \\ \sum_{j=1}^mx'_{2j}x'_{1j} & \sum_{j=1}^m{x'_{2j}}^2 & \cdots & \sum_{j=1}^mx'_{2j}x'_{dj} \\ \vdots & \vdots & \vdots & \vdots \\ \sum_{j=1}^mx'_{dj}x'_{1j} & \sum_{j=1}^mx'_{dj}x'_{2j} & \cdots & \sum_{j=1}^m{x'_{dj}}^2 \\ \end{matrix}\right)\notag \\ & =(m-1) \left(\begin{matrix} \sigma _{x'_1}^2 & \sigma _{x'_1x'_2} & \cdots & \sigma _{x'_1x'_d} \\ \sigma _{x'_2x'_1} & \sigma _{x'_2}^2 & \cdots & \sigma _{x'_2x'_d} \\ \vdots & \vdots & \vdots & \vdots \\ \sigma _{x'_dx'_1} & \sigma _{x'_dx'_2} & \cdots & \sigma _{x'_d}^2 \\ \end{matrix}\right) \tag{D7} \end{align} XXT= j=1mx1j2j=1mx2jx1jj=1mxdjx1jj=1mx1jx2jj=1mx2j2j=1mxdjx2jj=1mx1jxdjj=1mx2jxdjj=1mxdj2 =(m1) σx12σx2x1σxdx1σx1x2σx22σxdx2σx1xdσx2xdσxd2 (D7)
其中,右侧除了系数 ( m − 1 ) (m-1) (m1)外,矩阵的主对角线为分量的方差,其他元素为两分量的协方差,因此,定义 X ′ X ′ T \mathbf{X'}\mathbf{X'}^\mathrm{T} XXT为样本集 X \mathbf{X} X的协方差矩阵。

(2)求协方差矩阵不必中心化

X ′ \mathbf{X}' X X \mathbf{X} X中心化所得,即
x i ′ = x i − 1 m ∑ i = 1 m x i = x i − 1 m X 1 (由[附录 ——1、向量与矩阵]中式(A18)) = x i − μ \begin{align} \boldsymbol{x}'_i & =\boldsymbol{x}_i-\frac{1}{m}\sum_{i=1}^m\boldsymbol{x}_i\notag \\ & =\boldsymbol{x}_i-\frac{1}{m}\mathbf{X} \boldsymbol{1} \quad \text{(由[附录 ——1、向量与矩阵]中式(A18))}\notag \\ & =\boldsymbol{x}_i-\boldsymbol{\mu } \tag{D8} \end{align} xi=xim1i=1mxi=xim1X1(由[附录 ——1、向量与矩阵]中式(A18)=xiμ(D8)
其中, 1 \boldsymbol{1} 1为元素全为1的(列)向量,定义向量 μ = d e f 1 m X 1 \boldsymbol{\mu}\mathop{=} \limits^{\mathrm{def}} \frac{1}{m}\mathbf{X} \boldsymbol{1} μ=defm1X1,定义各列全为向量 μ \boldsymbol{\mu} μ的矩阵 A \mathbf{A} A
A = d e f ( μ , μ , ⋯   , μ ) = μ ( 1 , 1 , ⋯   , 1 ) = μ 1 T = 1 m X 1 1 T \begin{align} \mathbf{A} & \mathop{=} \limits^{\mathrm{def}}(\boldsymbol{\mu},\boldsymbol{\mu},\cdots,\boldsymbol{\mu})\notag \\ & =\boldsymbol{\mu}(1,1,\cdots,1)\notag \\ & =\boldsymbol{\mu}\boldsymbol{1}^\mathrm{T}\notag \\ & =\frac{1}{m}\mathbf{X} \boldsymbol{1}\boldsymbol{1}^\mathrm{T} \tag{D9} \end{align} A=def(μ,μ,,μ)=μ(1,1,,1)=μ1T=m1X11T(D9)
X ′ X ′ T = ∑ i = 1 m x i ′ x i ′ T = ∑ i = 1 m ( x i − μ ) ( x i − μ ) T = ∑ i = 1 m ( x i x i T − μ x i T − x i μ T + μ μ T ) = ∑ i = 1 m x i x i T − ∑ i = 1 m μ x i T − ∑ i = 1 m x i μ T + ∑ i = 1 m μ μ T = X X T − X A T − A X T + A A T (本式由[附录 ——1、向量与矩阵]中式(A20);下式由式(D9)) = X X T − X ( 1 m X 1 1 T ) T − ( 1 m X 1 1 T ) X T + ( 1 m X 1 1 T ) ( 1 m X 1 1 T ) T = X ( I − ( 1 m 1 1 T ) T − ( 1 m 1 1 T ) + ( 1 m 1 1 T ) ( 1 m 1 1 T ) T ) X T = X ( I − 1 m 1 1 T ) ( I − 1 m 1 1 T ) T X T (由[附录 ——1、向量与矩阵]中式(A24)) = X H H T X T \begin{align*} \mathbf{X}'{\mathbf{X}'}^{\mathrm{T}} & =\sum_{i=1}^m\boldsymbol{x}'_i{\boldsymbol{x}'_i}^{\mathrm{T}}\notag \\ & =\sum_{i=1}^m(\boldsymbol{x}_i-\boldsymbol{\mu})(\boldsymbol{x}_i-\boldsymbol{\mu})^{\mathrm{T}}\notag \\ & =\sum_{i=1}^m(\boldsymbol{x}_i\boldsymbol{x}_i^{\mathrm{T}}-\boldsymbol{\mu}\boldsymbol{x}_i^{\mathrm{T}}-\boldsymbol{x}_i\boldsymbol{\mu}^{\mathrm{T}}+\boldsymbol{\mu}\boldsymbol{\mu}^{\mathrm{T}})\notag \\ & =\sum_{i=1}^m\boldsymbol{x}_i\boldsymbol{x}_i^{\mathrm{T}}-\sum_{i=1}^m\boldsymbol{\mu}\boldsymbol{x}_i^{\mathrm{T}}-\sum_{i=1}^m\boldsymbol{x}_i\boldsymbol{\mu}^{\mathrm{T}}+\sum_{i=1}^m\boldsymbol{\mu}\boldsymbol{\mu}^{\mathrm{T}}\notag \\ & =\mathbf{X}\mathbf{X}^\mathrm{T}-\mathbf{X}\mathbf{A}^\mathrm{T}-\mathbf{A}\mathbf{X}^\mathrm{T}+\mathbf{A}\mathbf{A}^\mathrm{T}\quad \text{(本式由[附录 ——1、向量与矩阵]中式(A20);下式由式(D9))}\notag \\ & =\mathbf{X}\mathbf{X}^\mathrm{T}-\mathbf{X}(\frac{1}{m}\mathbf{X} \boldsymbol{1}\boldsymbol{1}^\mathrm{T})^\mathrm{T}-(\frac{1}{m}\mathbf{X} \boldsymbol{1}\boldsymbol{1}^\mathrm{T})\mathbf{X}^\mathrm{T}+(\frac{1}{m}\mathbf{X} \boldsymbol{1}\boldsymbol{1}^\mathrm{T})(\frac{1}{m}\mathbf{X} \boldsymbol{1}\boldsymbol{1}^\mathrm{T})^\mathrm{T}\notag \\ & =\mathbf{X}\left(\mathbf{I}-(\frac{1}{m}\boldsymbol{1}\boldsymbol{1}^\mathrm{T})^\mathrm{T}-(\frac{1}{m}\boldsymbol{1}\boldsymbol{1}^\mathrm{T})+(\frac{1}{m} \boldsymbol{1}\boldsymbol{1}^\mathrm{T})(\frac{1}{m}\boldsymbol{1}\boldsymbol{1}^\mathrm{T})^\mathrm{T}\right)\mathbf{X}^\mathrm{T}\notag \\ & =\mathbf{X}(\mathbf{I}-\frac{1}{m}\boldsymbol{1}\boldsymbol{1}^\mathrm{T})(\mathbf{I}-\frac{1}{m}\boldsymbol{1}\boldsymbol{1}^\mathrm{T})^\mathrm{T}\mathbf{X}^\mathrm{T}\quad \text{(由[附录 ——1、向量与矩阵]中式(A24))}\notag \\ & =\mathbf{X}\mathbf{H}\mathbf{H}^\mathrm{T}\mathbf{X}^\mathrm{T} \end{align*} XXT=i=1mxixiT=i=1m(xiμ)(xiμ)T=i=1m(xixiTμxiTxiμT+μμT)=i=1mxixiTi=1mμxiTi=1mxiμT+i=1mμμT=XXTXATAXT+AAT(本式由[附录 ——1、向量与矩阵]中式(A20);下式由式(D9)=XXTX(m1X11T)T(m1X11T)XT+(m1X11T)(m1X11T)T=X(I(m111T)T(m111T)+(m111T)(m111T)T)XT=X(Im111T)(Im111T)TXT(由[附录 ——1、向量与矩阵]中式(A24)=XHHTXT
其中, H = I − 1 m 1 1 T \mathbf{H}=\mathbf{I}-\frac{1}{m}\boldsymbol{1}\boldsymbol{1}^\mathrm{T} H=Im111T

由此,协方差矩阵
X ′ X ′ T = X H H T X T \begin{align} \mathbf{X}'{\mathbf{X}'}^{\mathrm{T}} & =\mathbf{X}\mathbf{H}\mathbf{H}^\mathrm{T}\mathbf{X}^\mathrm{T} \tag{D10} \end{align} XXT=XHHTXT(D10)
这说明不需要显式的中心化过程,即可通过式(D10)右边求出样本集 X \mathbf{X} X的协方差矩阵 X ′ X ′ T \mathbf{X}'{\mathbf{X}'}^{\mathrm{T}} XXT

(3)通过 Y \mathbf{Y} Y的奇异值分解得到 Y Y T \mathbf{Y}\mathbf{Y}^{\mathrm{T}} YYT的特征分解

我们讨论如何通过矩阵 Y \mathbf{Y} Y的奇异值分解 Σ \boldsymbol{\Sigma } Σ得到 Y Y T \mathbf{Y}\mathbf{Y}^{\mathrm{T}} YYT的特征分解 Λ \boldsymbol{\Lambda } Λ

由【西瓜书附录式(A.33)】, Y \mathbf{Y} Y的奇异值分解表述为如下:
{ Y = U Σ V T Y ∈ R d × m , U ∈ R d × d , Σ ∈ R d × m , V ∈ R m × m U T U = I d × d ,   V T V = I m × m Σ = { ( d i a g ( σ 1 , σ 2 , ⋯   , σ d )   ,   0 ) , ( d ⩽ m ) ( d i a g ( σ 1 , σ 2 , ⋯   , σ m )   ;   0 ) , ( d > m ) σ 1 ⩾ σ 2 ⩾ ⋯ ⩾ 0 \begin{align} \begin{cases} \mathbf{Y}=\mathbf{U}\boldsymbol{\Sigma }\mathbf{V}^{\mathrm{T}} \\ \mathbf{Y}\in \mathbb{R} ^{d \times m},\mathbf{U}\in \mathbb{R} ^{d \times d},\boldsymbol{\Sigma }\in \mathbb{R} ^{d \times m},\mathbf{V}\in \mathbb{R} ^{m \times m} \\ \mathbf{U }^{\mathrm{T}}\mathbf{U}=\mathbf{I}_{d \times d},\ \mathbf{V}^{\mathrm{T}}\mathbf{V}=\mathbf{I}_{m \times m} \\ \boldsymbol{\Sigma }= \begin{cases} (\mathrm{diag}({\sigma }_1,{\sigma }_2,\cdots,{\sigma }_d)\ ,\ \mathbf{0 }),&\quad (d\leqslant m) \\ (\mathrm{diag}({\sigma }_1,{\sigma }_2,\cdots,{\sigma }_m)\ ;\ \mathbf{0 }),&\quad (d> m) \\ \end{cases} \\ {\sigma }_1\geqslant {\sigma }_2\geqslant \cdots\geqslant 0 \\ \end{cases} \tag{D11} \end{align} Y=UΣVTYRd×m,URd×d,ΣRd×m,VRm×mUTU=Id×d, VTV=Im×mΣ={(diag(σ1,σ2,,σd) , 0),(diag(σ1,σ2,,σm) ; 0),(dm)(d>m)σ1σ20(D11)
其中, d i a g ( σ 1 , σ 2 , ⋯   , σ d ) \mathrm{diag}({\sigma }_1,{\sigma }_2,\cdots,{\sigma }_d) diag(σ1,σ2,,σd)为对角矩阵。


Y Y T = ( U Σ V T ) ( U Σ V T ) T = U Σ V T V Σ U T = U Σ Σ U T = U Λ U T \begin{align} \mathbf{Y}\mathbf{Y}^{\mathrm{T}} & =(\mathbf{U}\boldsymbol{\Sigma }\mathbf{V}^{\mathrm{T}})(\mathbf{U}\boldsymbol{\Sigma }\mathbf{V}^{\mathrm{T}})^{\mathrm{T}}\notag \\ & =\mathbf{U}\boldsymbol{\Sigma }\mathbf{V}^{\mathrm{T}}\mathbf{V}\boldsymbol{\Sigma }\mathbf{U}^{\mathrm{T}}\notag \\ & =\mathbf{U}\boldsymbol{\Sigma }\boldsymbol{\Sigma }\mathbf{U}^{\mathrm{T}}\notag \\ & =\mathbf{U}\boldsymbol{\Lambda }\mathbf{U}^{\mathrm{T}} \tag{D12} \end{align} YYT=(UΣVT)(UΣVT)T=UΣVTVΣUT=UΣΣUT=UΛUT(D12)
式(D12)即为 Y Y T \mathbf{Y}\mathbf{Y}^{\mathrm{T}} YYT的特征分解,其中,对角阵
Λ = Σ Σ = Σ 2 , 即:  ( Λ ) i i = λ i = σ i 2 \begin{align} \boldsymbol{\Lambda }=\boldsymbol{\Sigma }\boldsymbol{\Sigma }=\boldsymbol{\Sigma }^2,\quad \text{即: }(\boldsymbol{\Lambda })_{ii}={\lambda }_i={\sigma}_i^2 \tag{D13} \end{align} Λ=ΣΣ=Σ2,即: (Λ)ii=λi=σi2(D13)
因为,由式(D12)有
Y Y T U = U Λ U T U = U Λ \begin{align} \mathbf{Y}\mathbf{Y}^{\mathrm{T}}\mathbf{U} & =\mathbf{U}\boldsymbol{\Lambda }\mathbf{U}^{\mathrm{T}}\mathbf{U}\notag \\ & =\mathbf{U}\boldsymbol{\Lambda } \tag{D14} \end{align} YYTU=UΛUTU=UΛ(D14)

Y Y T u i = u i λ i \begin{align} \mathbf{Y}\mathbf{Y}^{\mathrm{T}}\boldsymbol{u}_i & =\boldsymbol{u}_i{\lambda }_i \tag{D15} \end{align} YYTui=uiλi(D15)
由式(D15)及特征向量的定义可知, u i \boldsymbol{u}_i ui为特征向量, λ i {\lambda }_i λi为对应的特征值,这就通过 Y \mathbf{Y} Y的奇异值分解 Σ \boldsymbol{\Sigma } Σ实现了 Y Y T \mathbf{Y}\mathbf{Y}^{\mathrm{T}} YYT的特征分解 Λ = Σ 2 \boldsymbol{\Lambda }=\boldsymbol{\Sigma }^2 Λ=Σ2,且特征值为奇异值的平方 λ i = σ i 2 {\lambda }_i={\sigma}_i^2 λi=σi2,次序为从大到小排序。

实际问题(例如,10.2 低维嵌入(立交桥就是嵌入三维空间中的二维)特征分解进行降维的技巧的式(10.17)中)中,往往最终不是求协方差矩阵 X ′ X ′ T \mathbf{X}'{\mathbf{X}'}^{\mathrm{T}} XXT(求它只是过程中的过渡),而是要求出协方差矩阵的特征值(特征矩阵),由(1)知,只需求出 X H H T X T \mathbf{X}\mathbf{H}\mathbf{H}^\mathrm{T}\mathbf{X}^\mathrm{T} XHHTXT的特征分解。
由(2)知,只需通过 X H \mathbf{X}\mathbf{H} XH(视作 Y \mathbf{Y} Y)的奇异值分解来实现 X H H T X T \mathbf{X}\mathbf{H}\mathbf{H}^\mathrm{T}\mathbf{X}^\mathrm{T} XHHTXT的特征分解。 即协方差矩阵的特征分解归结为 X H \mathbf{X}\mathbf{H} XH的奇异值分解,而奇异值分解又有现成的计算工具。

综上,求样本集 X \mathbf{X} X(不必中心化)协方差矩阵的特征矩阵的方法:对 X H \mathbf{X}\mathbf{H} XH进行奇异值分解,得 Σ \boldsymbol{\Sigma } Σ,再由 λ i = σ i 2 {\lambda }_i={\sigma}_i^2 λi=σi2组成特征矩阵 Λ \boldsymbol{\Lambda } Λ

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:7、有趣的距离与范数
下一篇:1-1 机器也学习?

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值