PCA主成分分析

假设我们有这样的两组数据:

 以Data1为横坐标,Data2为纵坐标,在二维坐标轴上表示出来,

 D1的平均值为5.83,D2的平均值为3.63。我们将所有数据减去对应的均值,完成了数据中心化

原始数据为二维的,我们要将数据降成一维的,并尽可能保留较多的原始信息。因此我们需要找到一个方向,使这些点在这个方向上的投影分散得最开。

提到分散度,我们会想到方差

 计算得 s^{2}(D_{1})=18.97s^{2}(D_{2})=3.13

 协方差公式为

计算得 cov(D1,D2)=6.49

实际上,我们可以用一个协方差矩阵表示这些结果,其中A表示将中心移到原点后的数据矩阵


注释:


接下来,我们要把它引导到平面的某一单位向量上。这个单位向量命名为 v,值为 (x_{0},y_{0})

 所以某个点 a 的坐标向量和该单位向量的内积,即这个点的向量在单位向量上的投影,记为S, 

那么,最大分散化就是在某方向上的投影至中心距离方差最大:

接下来,我们的任务是使用拉格朗日乘子法求 s 的最值 :

 求偏导,令偏导=0,

( v 是 C 的特征向量,\lambda 是 C 的特征值 ) 

det(C-\lambda E)=0,解得 \lambda =21.28 和 0.81

\lambda =21.28 时,代入到 Cv^{T}=\lambda v^{T} ,得到 特征向量 [0.94,0.34];


注释:


 \lambda =0.81 时,得到特征向量 [0.34,-0.94],即为图中蓝线的方向

几何意义:假设点 a 在D1D2的坐标系的坐标为 (4.17,2.37),它在PC1上投影长度为4.72,在PC2上投影长度为0.81,那么它既可以理解为由 4.17个D1和2.37个D2组成的,也可以理解为由4.72个PC1和0.81个PC2组成的。

把 Cv^{T}=\lambda v^{T},\overrightarrow{v}\overrightarrow{v}^{T}=1 (v是单位向量) 代入最大分散化的公式 s^{2}=\overrightarrow{v}C\overrightarrow{v}^{T}中, 

s^{2}=\overrightarrow{v}\lambda \overrightarrow{v}^{T}=\lambda\overrightarrow{v} \overrightarrow{v}^{T}=\lambda

所以某一主成分方向上投影的方差即为 \lambda假设我们要求 k 个主成分,只需要找到前 k 大的 \lambda,并计算其特征向量。

我们也可以计算各个主成分涵盖了多少的信息, 

计算可知,我们只需要保留主成分1就可以保留绝大多数信息。于是我们成功地将原有的二维数据信息转换成了这些点在主成分1方向上的投影的一维数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值