【机器学习西瓜书学习笔记——特征选择与稀疏学习】

最新推荐文章于 2024-09-16 21:06:28 发布

未来、梦想

最新推荐文章于 2024-09-16 21:06:28 发布

阅读量598

点赞数 10

文章标签：机器学习学习笔记

本文链接：https://blog.csdn.net/m0_51148715/article/details/141056355

版权

第十一章特征选择与稀疏学习

将样本属性称为“特征”。

从给定的特征集合中选择出相关特征子集，是一种数据预处理。

我们不能直接用排列组合进行遍历所有可能子集，这样会遭遇组合爆炸。所以我们选择产生一个“候选特征子集”，评价它的好坏，然后根据评价结果产生下一个候选特征子集，再进行评价，持续进行直到无法找到一个更好的子集为止。

怎么进行特征选择就转成了以下问题：如何根据评价结果生成下一个候选特征子集？

前向搜索：初始将每个特征当做一个候选特征子集，然后从当前所有的候选子集中选择出最佳的特征子集；接着在上一轮选出的特征子集中添加一个新的特征，同样地选出最佳特征子集；最后直至选不出比上一轮更好的特征子集。
后向搜索：从完整的特征集合开始，每次尝试去掉一个无关特征。
双向搜索：前向后向结合，每一轮逐渐增加选定相关特征，同时减少无关特征（前面增加的特征不会被去除）。
- 优点：思路简单，速度快，不用全部情况都遍历一遍。
- 缺点：使用贪心算法，不从总体上考虑其它可能情况，每次选取局部最优解，不再进行回溯处理，结果不一定是最好的。

信息增益Gain(A)越大，特征子集A包含的有助于分类的信息越多。对每个候选特征子集，可基于训练数据集D来计算其信息增益，以此作为评价准则。信息熵也是同理，只要能判断两个划分差异的机制都能用于特征子集评价。

将特征子集搜索机制和子集评价机制相结合，即可得到特征选择方法。常见的特征选择方法大致可分为三类:过滤式、包裹式和嵌入式。

先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关。特征选择在这里的作用相当于过滤。

①相关统计量——>度量特征的重要性。

②该统计量是一个向量，其每个分量分别对应一个初始特征（分量值越大，对应属性的分类能力越强）。

③特征子集的重要性则是由子集每个特征所对应的相关统计量分量之和决定的。

适用于二分类问题。

对于猜中近邻，两者 $j$ 属性的距离越小越好，对于猜错近邻， $j$ 属性距离越大越好。分别计算每个分量，最终取平均便得到了整个相关统计量，分量值越大，对于属性的分类能力越强（越是相关特征）。
Relief只需在数据集的采样上而不必在整个数据集上估计相关统计量，Relief的时间开销随采样次数及原始特征数线性增长，因此是一个运行效率很高的过滤式特征选择法.