1.子集搜索与评价
对当前学习任务有用的属性称为"相关特征",没什么用的属性称为"无关特征"。从给定的特征集合中选择出相关特征子集的过程,称为"特征选择" (feature selection).
将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法。例如将前向搜索与信息熵相结合,这显然与决策树算法非常相似。
特征选择是一个重要的数据预处理过程,进行特征选择的原因如下:
(1)减少特征数量、降维,使模型泛化能力更强,减少过拟合;
(2)去除不相关特征,降低学习难度。
常见的特征选择方法大致可分为三类:过滤式、包裹式和嵌入式。
1.2 过滤式选择
过滤式方法先对数据集进行特征选择,然后再训练学习器。特征选择过程与后续学习器无关,这相当于先对初始特征进行“过滤”,再用过滤后的特征训练模型。
1.3 包裹式选择
包裹式从初始特征集合中不断的选择特征子集,训练学习器,根据学习器的性能来对子集进行评价,直到选择出最佳的子集。从最终学习器性能来看,包裹式特征选择比过滤式特征选择更好。但另一方面, 由于在特征选择过程中需多次训练学习器,因此包裹式特征选择的计算开销通常比过滤式特征边择大得多。
LVW (Las Vegas Wrapper)是一个典型的包裹式特征选择方法.它在拉斯维加斯方法(Las Vegas method)框架下使用随机策略来进行子集