本篇文章包含PCA介绍,PCA算法,PCA求解步骤,PCA原理,鸢尾花数据集利用PCA算法降维的编程实现。
PCA介绍:
PCA(principal components analysis)即主成分分析技术,又称主分量分析。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析PCA是一种简化数据集的技术。它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。(先变换,再删除样本方差小的特征,样本方差越大,特征所带信息越多)
举例,将简单二维矩阵降维变成一维。
由图可以很清楚的看到,通过坐标轴改变,获得数据点在新坐标系上面的坐标,此时样本方差发生改变,x2*的方差变为0,所含信息为0,可以删除,所以将数据成功降维。
那么当遇见高维空间时,我们应该将坐标轴发生什么样的改变呢?
我们先看PCA算法,再分析一下他的原理。