特征选择和降维,它们是处理高维数据的两大主流技术。
- 维数灾难问题大为减轻
- 往往会降低学习任务的难度
在特征选择中,涉及两个关键环节:1)如何获取特征子集 2)如何评价特征子集的好坏
我们不可能遍历所有的特征子集,因此使用的是基于贪心的策略。搜索子集有三种方法:前向搜索,后向搜索,双向搜索。在子集评价问题中,可以使用信息增益作为评价准则。
将特征子集搜索机制与子集评价机制相结合,即可得到特征选择方法。
常见的特征选择方法有三类:过滤式、包裹式和嵌入式。
过滤式特征选择
先进行特征选择,然后用过滤后的特征来训练模型。这两个阶段是分离开的。
Relief是一种著名的过滤式特征选择方法。
该方法设计了一个“相关统计量”来度量特征的重要性。该统计量是一个向量,每一个分量分别对应一个初始特征,特征子集的重要性由子集中每个特征对应的相关统计量分量之和来决定。于是,可以指定一个阈值,然后选择比阈值大的相关统计量分量所对应的特征即可;或者,指定欲选取的特征个数 k k k,然后选择相关统计量分量最大的 k k k个特征。
Relief的关键是如何确定相关统计量。对于每一个示例 x i x_i xi,寻找其猜中近邻 x i , n h x_{i,nh} xi,nh(从同类样本中寻