Relief 特征选择算法简单介绍

本文链接：https://blog.csdn.net/coffee_cream/article/details/61420732

Relief是一种经典的过滤式特征选择方法，最初用于二分类问题。算法通过计算样本与其同类近邻和非同类近邻的差距来评估特征的重要性。Relief-F是其扩展，能处理多分类问题，考虑了所有类别之间的最近邻。通过比较样本与其同类和不同类的最近邻在各特征上的距离，来确定特征的分类能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Relief（Relevant Features） 是著名的过滤式特征选择方法，Relief 为一系列算法，它包括最早提出的 Relief 以及后来拓展的 Relief-F 和 RRelief-F ，其中最早提出的 Relief 针对的是二分类问题，RRelief-F 算法可以解决多分类问题，RRelief-F 算法针对的是目标属性为连续值的回归问题。

1 原始的 Relief 算法

最早提出的 Relief 算法主要针对二分类问题，该方法设计了一个“相关统计量”来度量特征的重要性，该统计量是一个向量，向量的每个分量是对其中一个初始特征的评价值，特征子集的重要性就是子集中每个特征所对应的相关统计量之和，因此可以看出，这个“相关统计量”也可以视为是每个特征的“权值”。可以指定一个阈值 $\tau$ ，只需选择比 $\tau$ 大的相关统计量对应的特征值，也可以指定想要选择的特征个数 $k$ ，然后选择相关统计量分量最大的 $k$ 个特征。

有了 Relief 的基本思想，那么现在的问题就转换成如何得到一种有效的权值或者相关统计量类对特征进行度量，Relief 借用了 “假设间隔”（hypothesis margin） 的思想，我们知道在分类问题中，常常会采用决策面的思想来进行分类，“假设间隔”就是指在保持样本分类不变的情况下，决策面能够移动的最大距离，可以表示为：

$\theta = \frac{1}{2}(\|x-M(x)\|-\| x-H(x)\|) \tag{1}$

其中， $M (x)$ 、 $H (x)$ 指的是与 $x$ 同类的和与 $x$ 非同类的最近邻点。

我们知道，当一个属性对分类有利时，则该同类样本在该属性上的距离较近，而异类样本在该属性上的距离较远，因此，若将假设间隔推广到对属性的评价中，则对应于公式（1）圆括号中的第一项越小，第二项越大，则该属性对分类越有利。“假设间隔”能对各维度上的特征的分类能力进行评价，从而就可以近似地估计出对分类最有用的特征子集，Relief 正是利用了这个特性。
　　
假设训练集 $D$ 为 ${(x_1,y_1), (x_2,y_2),\cdots,(x_m,y_m)}$ ，对每个样本 $x_i$ ，计算与 $x_i$ 同类别的最近邻 $x_{i,nh}$