Relief 特征选择算法简单介绍

相关文章
特征选择
LVW(Las Vegas Wrapper)特征选择算法简单介绍

Relief(Relevant Features) 是著名的过滤式特征选择方法,Relief 为一系列算法,它包括最早提出的 Relief 以及后来拓展的 Relief-F 和 RRelief-F ,其中最早提出的 Relief 针对的是二分类问题,RRelief-F 算法可以解决多分类问题,RRelief-F 算法针对的是目标属性为连续值的回归问题。

1 原始的 Relief 算法

最早提出的 Relief 算法主要针对二分类问题,该方法设计了一个“相关统计量”来度量特征的重要性,该统计量是一个向量,向量的每个分量是对其中一个初始特征的评价值,特征子集的重要性就是子集中每个特征所对应的相关统计量之和,因此可以看出,这个“相关统计量”也可以视为是每个特征的“权值”。可以指定一个阈值 τ \tau τ,只需选择比 τ \tau τ 大的相关统计量对应的特征值,也可以指定想要选择的特征个数 k k k,然后选择相关统计量分量最大的 k k k 个特征。

有了 Relief 的基本思想,那么现在的问题就转换成如何得到一种有效的权值或者相关统计量类对特征进行度量,Relief 借用了 “假设间隔”(hypothesis margin) 的思想,我们知道在分类问题中,常常会采用决策面的思想来进行分类,“假设间隔”就是指在保持样本分类不变的情况下,决策面能够移动的最大距离,可以表示为:

θ = 1 2 ( ∥ x − M ( x ) ∥ − ∥ x − H ( x ) ∥ ) (1) \theta = \frac{1}{2}(\|x-M(x)\|-\| x-H(x)\|) \tag{1} θ=21(xM(x)xH(x))(1)

其中, M ( x ) M(x) M(x) H ( x ) H(x) H(x) 指的是与 x x x 同类的和与 x x x 非同类的最近邻点。

我们知道,当一个属性对分类有利时,则该同类样本在该属性上的距离较近,而异类样本在该属性上的距离较远,因此,若将假设间隔推广到对属性的评价中,则对应于公式(1)圆括号中的第一项越小,第二项越大,则该属性对分类越有利。“假设间隔”能对各维度上的特征的分类能力进行评价,从而就可以近似地估计出对分类最有用的特征子集,Relief 正是利用了这个特性。
  
假设训练集 D D D ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x m , y m ) {(x_1,y_1), (x_2,y_2),\cdots,(x_m,y_m)} (x1,y1),(x2,y2),,(xm,ym),对每个样本 x i x_i xi,计算与 x i x_i xi 同类别的最近邻 x i , n h x_{i,nh} xi,nh,称为是 “猜中近邻”(near-heat),然后计算与 x i x_i xi 非同类别的最近邻 x i , n m x_{i,nm} xi,nm,称为是 “猜错近邻”(near-miss),则属性 j j j 对应的相关统计量为:

δ j = ∑ i − d i f f ( x i j , x i , n h j ) 2 + d i f f ( x i j , x i , n m j ) 2 (2) \delta^j=\sum_i{-diff(x_i^j, x_{i,nh}^j)^2+ diff(x_i^j, x_{i,nm}^j)^2} \tag{2} δj=idiff(xij,xi,nhj)2+diff(xij,xi,nmj)2(2)

其中, x a j x_a^j xaj 代表样本 x a x_a xa 在属性 j j j 上的取值, d i f f ( x a j , x b j ) diff(x_a^j,x_b^j) diff(xaj,xbj) 的计算取决于属性 j j j 的类型:

(1)对离散型属性:

d i f f ( x a j , x b j ) = { 0 , x a j = x b j 1 , o t h e r w i s e diff(x_a^j,x_b^j)= \begin{cases} 0, & x_a^j=x_b^j \\ 1, & otherwise \end{cases} diff(xaj,xbj)={0,1,xaj=xbjotherwise

(2)对连续型属性:

d i f f ( x a j , x b j ) = ∣ x a j − x b j ∣ diff(x_a^j,x_b^j)=| x_a^j-x_b^j | diff(xaj,xbj)=xajxbj

注: x a j x_a^j xaj x b j x_b^j xbj已经规范化到 [ 0 , 1 ] [0,1] [0,1] 区间。
  
从公式(2)中可以看出,若 x i x_i xi 与其猜中近邻 x i , n h x_{i,nh} xi,nh 在属性 j j j 上的距离小于 x i x_i xi 与其非同类别的最近邻 x i , n m x_{i,nm} xi,nm 的距离,则说明属性 j j j 对区分同类与异类样本是有利的,反之则不利,因此公式(2)的值越大则说明该属性的分类能力越强。

公式(2)得到的是单个样本对每个属性的评价值,将所有样本对同一个属性的评价值进行平均就得到了该属性的相关统计分量,分量值越大,分类能力就越强。

2 Relief-F

Relief 算法只能直接处理两分类的特征选择,改进的 Relief-F 算法能够处理多分类问题,它将多分类视为是一类对多类直接加以解决。其方法是寻找当前样本的各类最近邻点并综合加以计算。

假设数据集为 D D D,该数据集一共包含 ∣ y ∣ |y| y 个类别,对示例 x i x_i xi,若它属于第 k k k 类( k ∈ { 1 , 2 , ⋯   , ∣ y ∣ } k\in\{1,2,\cdots, |y|\} k{1,2,,y}),则 Relef-F 算法先在第 k k k 类的样本中寻找 x i x_i xi 的最近邻 x i , n h x_{i,nh} xi,nh,作为样本 x i x_i xi 的猜中近邻,然后在第 k k k 类之外的每个类别的样本中寻找 x i x_i xi 的最近邻 x i , l , n m x_{i,l,nm} xi,l,nm l = 1 , 2 , ⋯   , ∣ y ∣ ; l ≠ k l=1,2,\cdots, |y|;l\neq k l=1,2,,y;l=k),作为样本 x i x_i xi 的猜错近邻,则相关统计量对应于属性 j j j 的分量为:
δ j = ∑ i − d i f f ( x i j , x i , n h j ) 2 + ∑ l ≠ k ( p l × d i f f ( x i j , x i , l , n m j ) 2 ) \delta^j=\sum_i{-diff(x_i^j, x_{i,nh}^j)^2+\sum_{l\neq k} (p_l \times diff(x_i^j, x_{i,l,nm}^j)^2)} δj=idiff(xij,xi,nhj)2+l=k(pl×diff(xij,xi,l,nmj)2)

其中, p l p_l pl 为第 l l l 类样本在数据集 D D D 中所占的比例。

【参考文献】
《机器学习》周志华著.–北京:清华大学出版社

相关推荐
©️2020 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页