降维分析
1.降维方法
- 缺失值比率 :该方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。因此,可以将数据列缺失值大于某个阈值的列去掉。
- 低方差滤波 :该方法假设数据列变化非常小的列包含的信息量少,因此,所有的数据列方差小的列被移除。
- 高相关滤波 :对于数值列之间的相似性通过计算相关系数来表示,对于名词类列的相关系数可以通过计算皮尔逊卡方值来表示。相关系数大于某个阈值的两列只保留一列。同样要注意的是:相关系数对范围敏感,所以在计算之前也需要对数据进行归一化处理。
- 随机森林:我们能够对一个非常巨大的数据集生成多个浅层次的树,每颗树只训练一小部分特征。如果一个特征经常成为最佳分裂属性,那么它很有可能是需要保留的信息特征。
- 前向特征构造 :我们从一个特征开始,每次训练添加一个让分类器性能提升最大的特征。前向特征构造和反向特征消除都十分耗时。它们通常用于输入维数已经相对较低的数据集。
- 反向特征构造 :先用 n 个特征进行训练,每次降维操作,采用 n-1 个特征对分类器训练 n 次,得到新的 n 个分类器。将新分类器中错分率变化最小的分类器所用的 n-1 维特征作为降维后的特征集。
- PCA和SDA是重点讲解的,参见下文。
- 因子分析:假设在观察数据的生成中有一些观察不到的隐变量,而这个观察数据是这些隐变量和噪声的线性组合,那也就是说隐变量的数量小于观测变量,所以只需要找到隐变量就可以进行降维。
2.PCA主成分分析
1.原理
在PCA中,数据从原来的坐标系转换到了新的坐标系,新的坐标系的选择是由数据本身决定的,第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新的坐标轴的选择和第一个坐标轴正交且具有最大方差的方向,该过程一直重复,直到大部分数据方差都包含在了前几个坐标轴内。那如何求方差最大的特征呢?通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值及特征向量,选择特征值最大(也即包含方差最大)的N个特征所对应的特征向量组成的矩阵,我们就可以将数据矩阵转换到新的空间当中,实现数据特征的降维(N维)。
协方差:协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。