从给定的特征集合中选择出相关特征子集的过程,称为特征选择。它是”数据预处理“中重要的一步。scikit-learn 机器学习库提供了两种不同的特征选择方法:RFE和决策树。
1、为什么要进行特征选择?
1) 解决维度灾难的问题,降低运算量,使模型泛化能力更强,减少过拟合
缩短模型训练时间。减少数据,意味着算法训练更快。减少冗余数据,意味着根据噪声做出决策的机会更少。
特征选择与降维处理是处理高维数据的两大技术。
2)去除不相关特征可以降低学习难度。增强对特征和特征值之间的理解。
3)提高准确度
减少误导性数据,意味着将会提高模型准确度。
2、 无关特征与冗余特征
1)无关特征:与当前学习任务无关
2)冗余特征:它们所包含的信息能从其他特征中推演出。
如:特征中已经有长和宽两个特征了,那么面积就是一个冗余特征。冗余特征大多数情况下不起作用,但是有时可以降低学习的难度。见《西瓜书》P247