08 主成分分析（进阶版）

最新推荐文章于 2022-05-08 23:38:06 发布

纸境止境

最新推荐文章于 2022-05-08 23:38:06 发布

阅读量500

点赞数

分类专栏：大数据挖掘与分析多元统计分析文章标签：主成分分析

本文链接：https://blog.csdn.net/qq_40891541/article/details/89603399

版权

大数据挖掘与分析同时被 2 个专栏收录

39 篇文章

订阅专栏

多元统计分析

19 篇文章

订阅专栏

08 主成分分析（进阶版）

标签：机器学习与数据挖掘

1.主成分定义

设随机向量 $\mathbf{X}^{\text{T}}=\left[ X_1,X_2,...,X_P \right]$ 有协方差矩阵乏，其特征值$\lambda _1\geqslant \lambda _2\geqslant …\geqslant \lambda _p\geqslant 0 $。
考虑线性组合：
$Y_1=\boldsymbol{a}_1'\boldsymbol{X}=a_{11}X_1+a_{12}X_2+...+a_{1p}X_p \\ Y_2=\boldsymbol{a}_2'\boldsymbol{X}=a_{21}X_1+a_{22}X_2+...+a_{2p}X_p \\ ... \\ Y_p=\boldsymbol{a}_p'\boldsymbol{X}=a_{p1}X_1+a_{p2}X_2+...+a_{pp}X_p$
则，我们可以得到：
$Var\left( Y_i \right) =\boldsymbol{a}_{\boldsymbol{i}}'\boldsymbol{\varSigma a}_{\boldsymbol{i}}\,\, i=\text{1,2,...,}p \\ Cov\left( Y_i,Y_k \right) =\boldsymbol{a}_{\boldsymbol{i}}'\boldsymbol{\varSigma a}_{\boldsymbol{k}}\,\, i,k=\text{1,2,...,}p$
上式的那些 $Y_1$ ， $Y_2$ ，…， $Y_p$ ，它们使得方差尽可能的大
第一主成分是最大方差的显著性组合，即使得$Var\left( Y_i \right) $最大化。显然，$ Var\left( Y_i \right) $会因为$ \boldsymbol{a_1}$乘以某一个常数而增大。为消除这种不确定性，一个方便的方法是值关注有单位长度的系数向量。我们因此定义：
第一主成分 $=$ 线性组合 $\boldsymbol{a}_{\boldsymbol{1}}'\boldsymbol{X}$ ，在 $\boldsymbol{a}_{\boldsymbol{1}}'\boldsymbol{a}_{\boldsymbol{1}}=1$ 时，它使 $Var\left( \boldsymbol{a}_1'\boldsymbol{X} \right) =0$ 最大。

第二主成分 $=$ 线性组合 $\boldsymbol{a}_{\boldsymbol{2}}'\boldsymbol{X}$ ，在 $\boldsymbol{a}_{\boldsymbol{2}}'\boldsymbol{a}_{\boldsymbol{2}}=1$ 和 $Cov\left( \boldsymbol{a}_{\boldsymbol{i}}'\boldsymbol{X,a}_{\boldsymbol{k}}'\boldsymbol{X} \right) =0$ 时，它使 $Var\left( \boldsymbol{a}_2'\boldsymbol{X} \right)$ 最大。

…

第 $i$ 主成分 $=$ 线性组合 $\boldsymbol{a}_{\boldsymbol{i}}'\boldsymbol{X}$ ，和 $\boldsymbol{a}_{\boldsymbol{i}}'\boldsymbol{a}_{\boldsymbol{i}}=1$ 和 $Cov\left( \boldsymbol{a}_{\boldsymbol{i}}'\boldsymbol{X,a}_{\boldsymbol{k}}'\boldsymbol{X} \right) =0 (k < i)$ 时，它使 $Var\left( \boldsymbol{a}_i'\boldsymbol{X} \right)$ 最大。

2.重要结论：

image_1d950dpiq1hfm1hveu97dhg1k329.png-84.1kB

image_1d950ef8k74pf4b3cotvoo2dm.png-53.1kB
用语言来描述结论8.2：
$\text{总体总方差}=\sigma _{11}+\sigma _{22}+...+\sigma _{\begin{array}{c} pp\\ \end{array}} \\ =\lambda _1+\lambda _2+...+\lambda _p$

image_1d950f19j1u2ha4kav817q7b8313.png-53.8kB
推导：
$\rho _{Y_i,X_i}=\frac{Cov\left( Y_i,X_k \right)}{\sqrt{Var\left( Y_i \right)}\sqrt{Var\left( X_k \right)}}=\frac{\lambda _ie_{ik}}{\sqrt{\lambda _i}\,\,\sqrt{\sigma _{kk}}}=\frac{e_{ik}\,\,\sqrt{\lambda _i}}{\sqrt{\sigma _{kk}}}$
理解：这其实是按照相关系数的算法，算出的东西叫做信息量。
image_1d950kncm2v3l71fjnu31fm09.png-46.8kB

6.解释

首先，我们知道对一个矩阵的谱分解意味着对这个所在的n维图形找出它的特征。若是2维的一个椭圆，即是找出它的长短轴，而实际上，主成分同样。考虑一个二元正态随机向量：
image_1d96e4km519vvd41elfm0jfc69.png-136.7kB
我们可以看到，对于此图形，我们对其做主成分分析（也是谱分解）实际的操作就是找出其长短轴，也就是它的特征，并以此为基础进行变换。对于p维而已，减少其轴的数量也就是减少其维度。
当然，我们现在针对一下这个2维数据，可以发现其长轴方向就是其方差最大化的地方。