数据降维
降维:在保证数据本质的前提下,将数据的维度降低。
PCA的概念
PCA的思想是将 n n 维特征映射到维上,这 k k 维是全新的正交特征。
PCA算法流程
- 去平均值:每一维特征减去各自的平均值
- 计算协方差矩阵
- 计算协方差矩阵的特征值和特征向量
- 对特征值从大到小排序,保留特征值最大的个特征向量,组成特征向量矩阵。
- 将样本点投影到选取的特征向量上。
减去均值后的样本矩阵为 DataAdjust(m∗n) D a t a A d j u s t ( m ∗ n ) ,协方差矩阵为 n∗n n ∗ n ,选取的 k k 个特征向量组成的矩阵为。那么投影后的数据FinalData为:
FinalData(m∗k)=DataAdjust(m∗n)∗EigenVectors(n∗k) F i n a l D a t a ( m ∗ k ) = D a t a A d j u s t ( m ∗ n ) ∗ E i g e n V e c t o r s ( n ∗ k )参考:
https://www.zhihu.com/question/30094611
https://blog.csdn.net/google19890102/article/details/27969459