机器学习之特征选择(feature_selection)_决策树特征选择英文-CSDN博客

本文链接：https://blog.csdn.net/weixin_40444270/article/details/109380023

文章目录

选取特征子集
- 1. 子集搜索（subset search）
- 2. 子集评价(subset evaluation)
特征选择方法

参考书为《机器学习》-周志华

选取特征子集

当前存在的问题

从初始的特征集合选取包含所有重要信息的特征子集，若没有任何领域知识作为先验假设，那只好遍历所有可能的子集，这实际上并不可行，会遇到组合爆炸，特证数稍多就不行
可行做法是产生一个"候选子集"，评价出此好坏，基于评价结果产生下一个子集…

1. 子集搜索（subset search）

第一个环节是子集搜索(subset search)

给定特征集合 $\lbrace a_1, a_2 ,....,a_d \rbrace$ , 我们可将每个特征看作一个候选子集，对这 $d$ 个候选单特征子集进行评价

假定 $\lbrace a_2 \rbrace$ 最优，将 $\lbrace a_2 \rbrace$ 作为第一轮的选定集；
然后，在上一轮的选定集中加入一个特征，构造包含两个特征的候选子集，假定这 $d - 1$ 个候选两特征子集(候选子集为 $\lbrace\lbrace a_2,a_1 \rbrace,\lbrace a_2,a_3 \rbrace,....,\lbrace a_2,a_d \rbrace \rbrace)中,\lbrace a_2,a_4\rbrace$ 最优，且优于 $\lbrace a_2 \rbrace$ ,于是将 $\lbrace a_2,a_4 \rbrace$ 作为本轮选定集

$\cdots$

在第 $k + 1$ 轮时，最优的候选(k+1)特征子集不如上一轮的选定集，则停止生成候选选定集，并将上一轮选定的 $k$ 特征集合作为特征选择的结果

"前向"(forward)搜索:逐渐增加相关特征
后向搜索(backward):从完整的特征集合开始，每次尝试去掉一个无关特征
双向搜索(bidirectional):前向后向相结合，每一轮逐渐增加相关特征(后续不会被去除)，同时减少无关特征

结论

上述策略都是贪心，仅考虑本轮最优。但很多问题只能穷举才可解决

2. 子集评价(subset evaluation)

给定数据集 $D$ ，假定 $D$ 中第 $i$ 类样本所占的比例为 $p_i(i=1,2,...,|Y|)$ ,假定样本属性为离散型

对属性子集 $A$ ，假定根据其取值将 $D$ 分成了 $V$ 个子集 $\lbrace D^1,D^2,...,D^V \rbrace$ ，每个子集中的样本在 $A$ 上取值相同，于是我们可计算属性子集 $A$ 的信息增益

$\sum_{v=1}^{V}\frac{D^v}{D}Ent(D^v)\tag{11.1}$

其中信息熵定义为

$-\sum_{i=1}^{|Y|}p_klog_2p_k\tag{11.2}$

总结

信息增益越大，意味着特征子集A包含有助于分类的信息越多
对每个候选特征子集，我们可基于训练数据集D 来计算其信息增益，以此作为评价准则.

将特征子集搜索与子集评价机制结合，即可得到特征选择方法
例如前向搜素+信息熵，这与决策树算法非常相似
事实上，决策树可用于特征选择，树结点的划分属性所组成的集合就是选择出的特征子集

特征选择方法

1. 过滤式(Filter)

过滤式方法是先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关，这相当于先用特征选择过程先对初始特征进行过滤,再用过滤后的特征来训练模型

Relief

Relief是著名的过滤式特征选择方法，该方法设计了一个“相关统计量”来度量特征的重要性

流程

该统计量是一个向量，其中每个分量分别对应着一个初始特征，而特征子集的重要性是由子集中每个特征所对应的相关统计量分量之和来决定
最终只需指定一个阈值 $\tau$ ,选择比 $\tau$ 大的相关统计量分量所对应的特征即可
也可指定欲选取的特征个数k，然后选择相关统计量分量最大的k个特征

Relief如何确定相关统计量

给定训练集 $\lbrace (x_1,y_1),(x_2,y_2),....,(x_m,y_m) \rbrace$ ，对每个示例 $x_i$

$R e l i e f$ 现在 $x_i$ 的同类样本中寻找其最近邻 $x_{i,nh}$ ,称为**“猜中近邻”(near-hit)，再从 $x_i$ 的异类样本**中寻找其最近邻
$x_{i,nm}$ ,称为"猜错近邻"(near-miss)

相关统计量对应于属性j的分量为
$\delta^j = \sum_{i}-diff(x_i^j,x_{i,nh}^{j})^2 + diff(x_i^j,x_{i,nm}^j)^2\tag{11.3}$

$x_a^j$ 是样本 $x_a$ 在属性 $j$ 上的取值
$diff(x_a^j,x_b^j)$ 取决于属性j的类型：
- 若属性 $j$ 为离散型，则 $x_a^j = x_b^j$ 时 $diff(x_a^j,x_b^j) = 0$ ,否则为 $1$
- 若属性 $j$ 为连续性， $diff(x_a^j,x_b^j) = |x_a^j - x_b^j|$
- 注意 $x_a^j$ , $x_b^j$ 已经规范化到 $[0, 1]$ 区间
- $i$ 指出用于平均的样本下标

上式中可以看出

若 $x_i$ 与其猜中近邻 $x_{i,nh}$ 在属性 $j$ 上的距离小于 $x_i$ 与其猜错近邻 $x_{i,nm}$ 的距离，则说明属性 $j$ 对区分同类与异类是有益的，增大属性 $j$ 所对应的统计量分量
反之，说明属性 $j$ 起负作用，就减少统计量分量
对基于不同样本得到的估计结果进行平均，就得到各属性的相关统计分量，分量值越大，则对应属性的分类能力越强

总结

Relief只需在数据集的采样上而不必在整个数据集上估计相关统计量
Relief的时间开销随着采样次数以及原始特征数线性增加，所以它是运行效率很高的过滤式特征选择算法
Relief只针对二分类问题

Relief-F

为Relief的扩展变体，处理多分类问题

假定数据集 $D$ 中的样本来自 $∣ Y ∣$ 个类别

对于示例 $x_i$ ,若它属于第 $k$ 类 $\in \lbrace 1,2,...,|Y| \rbrace)$ ,则Relief-F先在第 $k$ 类的样本中寻找 $x_i$ 的最近邻示例 $x_{i,nh}$ 并将其作为猜中近邻

然后再第 $k$ 类之外的每个类中找到一个 $x_i$ 的最近邻示例作为猜错近邻，记为 $x_{i,l,nm}(l = 1,2,...,|Y|,l \not = k)$

于是相关统计量对应于属性 $j$ 的分量

$\delta^j = \sum_i -diff(x_i^j,x_{i,nh}^j)^2 + \sum_{l \not = k}(p_l \times diff(x_i^j,x_{i,l,nm})^2)\tag{11.4}$

$p_l$ 为第 $l$ 类样本再数据集 $D$ 中所占比例

2.包裹式(wrapper)

与过滤式不考虑后续学习器不同，包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价标准，即，包裹式特征选择的目的就是为给定学习器选择最有利于其性能、"量身定做"的特征子集

特点

包裹式特征选择比过滤式特征选择更好
包裹式在特征选择过程中需要多次训练学习器，因此包裹式特征选择的计算开销通常比过滤式特征选择大得多

LVM

LVW(Las Vegas Wrapper)是典型的包裹式特征选择方法
在拉斯维加斯方法(Las Vegas method)框架下使用随机策略来进行子集搜索，并以最终分类器得误差为特征子集评价准则

在这里插入图片描述
上图第 $8$ 行是通过在数据集 $D$ 上，使用交叉验证法来估计学习器￡的误差，注意这个误差是在仅考虑特征子集 $A^{\prime}$ 时得到的，即特征子集 $A^{\prime}$ 上的误差.
若它比当前特征子集 $A$ 上的误差更小，或误差相当但 $A^{\prime}$ 中包含的特征数更少,则将 $A^{\prime}$ 保留下来.