大多数数据集需要我们对之进行“清洗”工作,包括数据转换、数据离散化、数据缺失替换和数据异常点处理
在实际的挖掘分析中,过多的变量对模型精度的提升十分有限,但是对于挖掘速度的影响确实十分巨大的,维数灾难就是描述这一情况的。
我们需要多少变量来进行分析挖掘?
特征规约:特征规约即针对特定数据集进行变量数目的减少,在P较大时,特征规约显得有很强的必要性
特征规约方法:
- 主成分分析:较为常用的特征规约方法,可以在保留数据集一定信息的同时大规模减少变量数目,应用较广
- 主要细节:决定主成分分析结果的是我们要保留多少百分比的方差贡献度
- 特征选择:可以在不破坏数据结构的前提下精简变量,目前越来越流行,是主成分分析的一个极佳的补充
- 向前选择+向后淘汰
主成分分析是对变量的重新组合,特征选择是对变量的单纯意义上的精简。
<