PCA最大方差理论+几何意义
转载请注明:云南省高校数据化运营管理工程研究中心博客http://write.blog.csdn.net/mdeditor#!postId=78932615
主成份为什么可以
经过主成分在压缩数据之后的数据(主成分得分数据),多个变量变为更少的综合变量,变量个数减少了,还能反映原有数据的信息吗?为什么可以呢?解决以上疑问前我们需要了解PCA理论基础:
1.PCA理论基础:方差最大理论
我们以一个二维数据为例:
图1:寻找主成分的正交旋转
将二维,降至一维
• a二维经过投影,变为一维;
• b要尽可能保留原始信息。直观的感受就是投影之后尽量分散,点分布差异相对较大,没有相关性(相反的极端情况是投影后聚成一团,变量间的差别小,蕴含的信息就少了);
• c如何体现差异呢,可量化的方差。这就需要找一个方向使得投影后它们在投影方向上的方差尽可能达到最大,即在此方向上所含的有关原始信息样品间的差异信息是最多的;
• d降维在线性空间中就是基变换,换一种说法就是,找到一组的基向量,在此向量空间上进行投影。在图中就是本来基是(0,1),(1,0)现在换成在横贯1,3第一象限的那条,为什么不选横贯2,4象限的呢,思考b条。
我们由二维空间向一维空间的转换,如何才能尽可能的保留信息呢,这就需要找一个方向使得投影后它们在投影方向上的方差尽可能达到最大,即在此方向上所含的有关原始信息样品间的差异信息是最多的。
(小伙伴会不会有为什么是方差最大的疑惑呢?从数据体现信息的多少出发。极端的情况是样本数据都是相同的,那就没有更多信息了。所以有样本间有变化,才有更多信息,变化就是差异,差异就用方差体现)
2.方差最大和协方差的关系
要解释方差最大和主成分的关系需要从方差和协方差的关系入手:
设对原始数据标准化(减去对应变量的均值,再除以其方差),每个样本对应p个变量,设 x=(x∗1,x∗2,⋯,x∗p)′ 为p维随机变量, u=E(x),∑=V(x) ,找其线性组合(找综合变量),进行线性变换: