目录
为什么要进行特征选择?
一是因为现实任务中经常为遇到维数灾难问题;
二是因为去除不相关特征会降低学习任务的难度;
特征选择的两个环节
1) 子集搜索
2)子集评价:我们可以基于训练数据集 来计算其信息增益, 以此作为评价准则;
Part I: 常见的特征选择方法
大致可分为三类: 过滤式, 包裹式和嵌入式。
1. 过滤式选择
过滤式方法先对数据集进行特征选择, 然后再训练学习器,特征选择过程与后续学习器无关。 这相当于先用特征选择过程对初始特征进行过滤, 再用过滤后的特征来训练模型。
代表性方法:Relief
代表性方法是Relief。在Relief方法中, 特征子集的重要性则是由子集中每个特征所对应的相关统计量分量之和来决定。于是, 最终只需指定一个阈值, 然后选择比大的相关统计量分量所对应的特征即可;也可指定选取的特征个数,然后选择相关统计量分量最大的个特征。Relief方法根据“猜中近邻”和“猜错近邻”来计算相关统计量。
其中在同类样本中寻找其中最近邻