转载 :http://www.cnblogs.com/zhangchaoyang/articles/2222048.html
主成分分析PCA
关于为什么协方差的特征向量就是 k 维理想特征,有3个理论,分别是:
- 最大方差理论
- 最小错误理论
- 坐标轴相关度理论
降维的必要性
1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。
2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。
3.过多的变量会妨碍查找规律的建立。
4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。
降维的目的:
1.减少预测变量的个数
2.确保这些变量是相互独立的
3.提供一个框架来解释结果
降维的方法有:主成分分析、因子分析、用户自定义复合等。
PCA(Principal Component Analysis)不仅仅是对高维数据进行降维,更重要的是经过降维去除了噪声,发现了数据中的模式。
PCA把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。
预备知识
样本X和样本Y的协方差(Covariance):
![](https://i-blog.csdnimg.cn/blog_migrate/507e5bde591d115f624e127112a34969.png)
![](https://i-blog.csdnimg.cn/blog_migrate/059903740862340e7ef26d7caabf949c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3cf73cdf60239e58317fcf2a4502bc93.png)
![](https://i-blog.csdnimg.cn/blog_migrate/76dccd98123055d17b6c35c314e81901.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f94e120c029d77526fd319dfdc9981c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e65772aa812105ef8508cf64d1fd482d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9afec4583e5367e89dc9e4f2b97443f6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d733635b0594e601d4728551240d3d44.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3f77ee0e67bf691be5bd110737181ae6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/fa6c2c69a1cf10a8bcdef24c2554fa26.png)
![](https://i-blog.csdnimg.cn/blog_migrate/29f5a7b88dc02ac269fa1ed57cf03aff.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ec30adfc9d2be6b536dd717474e1fc1d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/326a7db216f91e224114472bc45873f3.png)
![](https://i-blog.csdnimg.cn/blog_migrate/becd78c0944b08d714432cd4e150ec6d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/76dccd98123055d17b6c35c314e81901.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f94e120c029d77526fd319dfdc9981c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ec30adfc9d2be6b536dd717474e1fc1d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/caec8a25c90cc1c44dc58bc6e8a65c8a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f94e120c029d77526fd319dfdc9981c1.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1e32c72918e8666ecbb6188b9c252d0f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1e32c72918e8666ecbb6188b9c252d0f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1e32c72918e8666ecbb6188b9c252d0f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1e32c72918e8666ecbb6188b9c252d0f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d733635b0594e601d4728551240d3d44.png)
![](https://i-blog.csdnimg.cn/blog_migrate/76dccd98123055d17b6c35c314e81901.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9afec4583e5367e89dc9e4f2b97443f6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ec30adfc9d2be6b536dd717474e1fc1d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/caec8a25c90cc1c44dc58bc6e8a65c8a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9afec4583e5367e89dc9e4f2b97443f6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1e32c72918e8666ecbb6188b9c252d0f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1e32c72918e8666ecbb6188b9c252d0f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1e32c72918e8666ecbb6188b9c252d0f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1e32c72918e8666ecbb6188b9c252d0f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d733635b0594e601d4728551240d3d44.png)
![](https://i-blog.csdnimg.cn/blog_migrate/76dccd98123055d17b6c35c314e81901.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bb63b2540aea19f9b0b41a8db48dd760.png)
![](https://i-blog.csdnimg.cn/blog_migrate/caec8a25c90cc1c44dc58bc6e8a65c8a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2c56dad2551f4e96aff4fd10e80e4d74.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d733635b0594e601d4728551240d3d44.png)
协方差为正时说明X和Y是正相关关系,协方差为负时X和Y是负相关关系,协方差为0时X和Y相互独立。
Cov(X,X)就是X的方差(Variance).
当样本是n维数据时,它们的协方差实际上是协方差矩阵(对称方阵),方阵的边长是
。比如对于3维数据(x,y,z),计算它的协方差就是:
![](https://i-blog.csdnimg.cn/blog_migrate/507e5bde591d115f624e127112a34969.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3f77ee0e67bf691be5bd110737181ae6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/045559c3e89e94546aadf55b3907668c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/059903740862340e7ef26d7caabf949c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3cf73cdf60239e58317fcf2a4502bc93.png)
![](https://i-blog.csdnimg.cn/blog_migrate/76dccd98123055d17b6c35c314e81901.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1f1e8de35be44108310d6d58a5cb5e74.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e65772aa812105ef8508cf64d1fd482d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1f1e8de35be44108310d6d58a5cb5e74.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d733635b0594e601d4728551240d3d44.png)
![](https://i-blog.csdnimg.cn/blog_migrate/045559c3e89e94546aadf55b3907668c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/059903740862340e7ef26d7caabf949c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3cf73cdf60239e58317fcf2a4502bc93.png)
![](https://i-blog.csdnimg.cn/blog_migrate/76dccd98123055d17b6c35c314e81901.png)
![](https://i-blog.csdnimg.cn/blog_migrate/92d78adcee450910e4b88030f4540c66.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e65772aa812105ef8508cf64d1fd482d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1f1e8de35be44108310d6d58a5cb5e74.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d733635b0594e601d4728551240d3d44.png)
![](https://i-blog.csdnimg.cn/blog_migrate/045559c3e89e94546aadf55b3907668c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/059903740862340e7ef26d7caabf949c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3cf73cdf60239e58317fcf2a4502bc93.png)
![](https://i-blog.csdnimg.cn/blog_migrate/76dccd98123055d17b6c35c314e81901.png)
![](https://i-blog.csdnimg.cn/blog_migrate/338f1055a1334c1905f870a568a87557.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e65772aa812105ef8508cf64d1fd482d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1f1e8de35be44108310d6d58a5cb5e74.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d733635b0594e601d4728551240d3d44.png)
![](https://i-blog.csdnimg.cn/blog_migrate/045559c3e89e94546aadf55b3907668c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/059903740862340e7ef26d7caabf949c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3cf73cdf60239e58317fcf2a4502bc93.png)
![](https://i-blog.csdnimg.cn/blog_migrate/76dccd98123055d17b6c35c314e81901.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1f1e8de35be44108310d6d58a5cb5e74.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e65772aa812105ef8508cf64d1fd482d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/92d78adcee450910e4b88030f4540c66.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d733635b0594e601d4728551240d3d44.png)
![](https://i-blog.csdnimg.cn/blog_migrate/045559c3e89e94546aadf55b3907668c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/059903740862340e7ef26d7caabf949c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3cf73cdf60239e58317fcf2a4502bc93.png)
![](https://i-blog.csdnimg.cn/blog_migrate/76dccd98123055d17b6c35c314e81901.png)
![](https://i-blog.csdnimg.cn/blog_migrate/92d78adcee450910e4b88030f4540c66.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e65772aa812105ef8508cf64d1fd482d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/92d78adcee450910e4b88030f4540c66.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d733635b0594e601d4728551240d3d44.png)
![](https://i-blog.csdnimg.cn/blog_migrate/045559c3e89e94546aadf55b3907668c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/059903740862340e7ef26d7caabf949c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3cf73cdf60239e58317fcf2a4502bc93.png)
![](https://i-blog.csdnimg.cn/blog_migrate/76dccd98123055d17b6c35c314e81901.png)
![](https://i-blog.csdnimg.cn/blog_migrate/338f1055a1334c1905f870a568a87557.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e65772aa812105ef8508cf64d1fd482d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/92d78adcee450910e4b88030f4540c66.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d733635b0594e601d4728551240d3d44.png)
![](https://i-blog.csdnimg.cn/blog_migrate/045559c3e89e94546aadf55b3907668c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/059903740862340e7ef26d7caabf949c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3cf73cdf60239e58317fcf2a4502bc93.png)
![](https://i-blog.csdnimg.cn/blog_migrate/76dccd98123055d17b6c35c314e81901.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1f1e8de35be44108310d6d58a5cb5e74.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e65772aa812105ef8508cf64d1fd482d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/338f1055a1334c1905f870a568a87557.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d733635b0594e601d4728551240d3d44.png)
![](https://i-blog.csdnimg.cn/blog_migrate/045559c3e89e94546aadf55b3907668c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/059903740862340e7ef26d7caabf949c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3cf73cdf60239e58317fcf2a4502bc93.png)
![](https://i-blog.csdnimg.cn/blog_migrate/76dccd98123055d17b6c35c314e81901.png)
![](https://i-blog.csdnimg.cn/blog_migrate/92d78adcee450910e4b88030f4540c66.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e65772aa812105ef8508cf64d1fd482d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/338f1055a1334c1905f870a568a87557.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d733635b0594e601d4728551240d3d44.png)
![](https://i-blog.csdnimg.cn/blog_migrate/045559c3e89e94546aadf55b3907668c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/059903740862340e7ef26d7caabf949c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3cf73cdf60239e58317fcf2a4502bc93.png)
![](https://i-blog.csdnimg.cn/blog_migrate/76dccd98123055d17b6c35c314e81901.png)
![](https://i-blog.csdnimg.cn/blog_migrate/338f1055a1334c1905f870a568a87557.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e65772aa812105ef8508cf64d1fd482d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/338f1055a1334c1905f870a568a87557.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d733635b0594e601d4728551240d3d44.png)
若
,则称
是A的特征值,X是对应的特征向量。实际上可以这样理解:矩阵A作用在它的特征向量X上,仅仅使得X的长度发生了变化,缩放比例就是相应的特征值
。
当A是n阶可逆矩阵时,A与P-1Ap相似,相似矩阵具有相同的特征值。
特别地,当A是对称矩阵时,A的奇异值等于A的特征值,存在正交矩阵Q(Q-1=QT),使得:
对A进行奇异值分解就能求出所有特征值和Q矩阵。
,D是由特征值组成的对角矩阵
由特征值和特征向量的定义知,Q的列向量就是A的特征向量。
Jama包
Jama包是用于基本线性代数运算的java包,提供矩阵的cholesky分解、LUD分解、QR分解、奇异值分解,以及PCA中要用到的特征值分解,此外可以计算矩阵的乘除法、矩阵的范数和条件数、解线性方程组等。
再对测试样本进行降维的时候,一定要减去训练样本的均值,使用训练样本得到的转换矩阵,保证训练样本和测试样本转换到相同的样本空间中.