一、 利用PCA简化数据
1、对数据进行降维的原因
- 使得数据更容易使用;
- 降低很多算法的计算开销;
- 去除噪声
- 使得结果更容易理解。
2、 主成分分析PCA(Principal Component Analysis)
数据从原来的坐标系转换到了新得坐标系。第一个新坐标轴选择的是原始数据集中方差最大的方向,第二个选择的和第一个坐标轴正交且具有最大方差,此过程一直重复,重复次数为原始数据中特征的数目。我们发现,大部分方差都包含在最前面的几个新坐标轴中。因此可以忽略余下的坐标轴,即对数据进行了降维处理。
3、 PCA的优缺点
- 优点:降低数据的复杂性,识别最重要的多个特征;
- 缺点:不一定需要,可能会损失信息;
- 使用数据类型:数值型数据。
4、 PCA原理
数据的最大方差给出了数据最重要的信息,我们首先选择覆盖数据最大差异性的坐标轴,然后选择与第一条坐标轴垂直的覆盖数据次大差异性的坐标轴,利用PCA我们实际上是将坐标轴旋转到了数据角度上那些最重要的方向。坐标轴旋转并没有降低数据的维度。通过降维处理,我们可以同时获得SVM和决策树的优点:一方面得到了和决策树一样简单的分类器,另一方面分类间隔和SVM一样好。
通过对数据集的协方差矩阵及特征值分析