PCA(Principal Component Analysis)是一种数据分析方法,它通过线性变换将原始数据变换为一组各维度线性无关的表示,用于提取数据的主要特征分量,常用于高维数据的降维。降低数据的维度是非常有用的,如我们看到数据的分布仅限于2维或者3维,低维数据可以在数值算法中明显减少运行时间,而且许多统计模型存在协变量的高度相关,PCA就可以产生不相关协变量的线性组合。
PCA的思想是将n维特征映射到k维上(k<n),这k维是全新的正交特征,这k维特征称为主元(Principal Component),是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。
PCA计算过程
第一步,数据预处理
这一步主要是让数据正规化,主要采用scaling技术---Unit variance(UV)scaling。
通过UV scaling可以将不同范围大小的变量变为范围大小相同的变量。
但是,变量的均值仍然不同,为此采用数据预处理的另一种方法,mean-centering。Mean-centering先计算出变量的均值,然后让每个变量减去该均值。
为了更好地学习PCA,我们给出一个二元变量的数据样本,共有20个样例,组成20*2的矩阵X(Data Matrix)。
在二维平面上做出这20个样例的散点分布图:
<