(一)、主成分分析法PCA简介
- PCA 目的:降维——find a low dimension surface on which to project data ~
如图所示,寻找蓝色的点到直线的垂直距离的和最小的直线(向量)
PCA 与 Linear Regression 的区别:
PCA衡量的是点到直线的垂直距离, 而linear regression是所有x点对应的真实值y=g(x)与估计值f(x)之间的vertical distance距离,如下图所示:
(二)、PCA 算法流程
假设有m个samples,每个数据有n维。
第一步:数据处理
首先要进行数据正则化,将点的各个features处理在相同的数量级。
第二步:PCA算法选取k个主分量