对于降维,我看可以简单理解为减少数据的维度,说白了就是减少变量个数。文末的视频墙裂推荐观看一下。
特征选择: 不改变变量的含义,仅仅只是做出筛选,留下对目标影响较大的变量。
- Backward Elimination(反向淘汰)
- Forward Selection(正向选择)
- Bidirectional Elimination(双向淘汰)
- Score Comparison(信息量比较)
前面三种机制差不多,反向淘汰其实之前的文章写过实例应用的:反向淘汰
对于正向选择,其实大致就是反向淘汰的逆过程。每个变量在加入模型前进行显著水平与设置的显著阈值进行比较,小于则加入模型,否则不加入。
双向淘汰是反向淘汰结合正向淘汰,因此需要设置两个水平显著值,一个用于反向淘汰判断变量是否该剔除出模型,一个用于正向选择判断变量是否应该加入模型。
信息量比较也写过实例:信息量比较
特征提取: 从数据集中的m个变量中提取p个新的变量(p<=m),这p个变量可以很好的解释自变量的差异性(数学上的表现为方差),这一步相当于数据预处理的一步,与因变量无关