代码及数据集下载:PCA
在机器学习之前通常需要对数据进行降维处理,有以下原因:
- 使得数据集更易使用
- 降低很多算法的计算开销
- 去除噪声
- 使得结果易懂
这里讲的降维方法为主成分分析法(PCA),将数据从原来的坐标系转换到新的坐标系,新的坐标系的选择是由数据本身决定的。第一个坐标轴选择的是原始数据中方差最大的方向,第二个新最标轴的选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复,重复次数为想要保留原始数据特征的数目。我们会发现,大部分方差都包含在最前面的几个新的坐标轴中,因此我们忽略余下的方差小的最标轴。方差越大代表该特征包含的信息越多,代表数据的差异。PCA中假设数据是不相关的。
PCA的原理及流程如下:
- 假设变换后的坐标系为 W={
w1,w2,..,wd′} ,为一组标准正交基。
- m个数据集为 X={
x1,x2,...,xm} 。
- 对m个数据的每个特征进行中心化,使得 ∑ixi=0 。
- 数据的协方差矩阵为