1.PCA的原理
主成分分析PCA(principal component analysis)是一种降维的方法。在PCA中,数据集被从原来的坐标系统转换到一个新的坐标系统。
坐标系的选择是有数据决定的,第一个坐标选择是原始数据中方差最大的方向,第二个坐标轴选择是跟第一个坐标轴正交,并且具有最大方差的方向。其他坐标轴的选择跟这个一样的做法。
这样大部分方差大的坐标就在前几个坐标系里面了。
2.PCA计算方法:
① 计算数据集的列平均值
②用数据集-列平均值
③计算协方差矩阵
④计算协方差矩阵对应特征值和特征向量
⑤按照特征值从大到小的顺序对特征向量进行排序。
⑥选取前k个特征值对应的特征向量,组成新的矩阵W
⑦应用新生成的矩阵W计算在新空间中元数据x的坐标。y=*x进行计算。
3.在scikit-learn中通过sklearn.decomposition.PCA类实现PCA的处理。