PCA(主成分分析)
一、PCA用于降维,保留最重要的K个特征,降维的目的
1)使数据易于处理
2)去除噪声
3)较低计算的开销
4)使结果更容易理解
二、PCA的具体流程
1)去平均值,即每一维特征减去各自的平均值(即让数据点中心化)
2)计算协方差矩阵(即X * X的转置)。协方差是度量两个随机变量关系的统计量,即用协方差衡量不同维度特征之间的相关性
3)计算协方差矩阵的特征值与特征向量
4)对特征值从大到小排序。特征值大小表示的是该维度特征的重要性级别,即维度所包含的信息量的大小
5)保留最大的k个特征值对应的特征向量
6)将数据乘以k个特征向量,以把数据转换到构建的新空间中。