Relief与Relie-F

机器学习笔记

特征选择(来自周志华老师的机器学习)

Relief与Relie-F

Relief是为二分类问题设计的

Relief是一种过滤式特征选择方法。

过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关.这相当于先用特征选择过程对初始特征进行"过滤",再用过滤后的特征来训练模型

Relief设计了一个"相关统计量"来度量特征的重要性.该统计量是一个向量,其每个分量分别对应于一个初始特征,而特征子集的重要性则是由子集中每个特征所对应的相关统计量分量之和来决定.于是,最终只需指定一个阈值 \tau 然后选择比 \tau 大的相关统计量分量所对应的特征即可;也可指定欲选取的特征个数k, 然后选择相关统计量分量最大的k 个特征.
 
 

Relief的关键是如何确定相关统计量,给定训练集{(x1,y1),(x2,y2),...(xm,ym)}.对每个示例xi,Relief 先在xi的同类样本中寻找其最近邻x_{i,nh},称为"猜中近邻" (near-hit) ,再从xi的异类样本中寻找其最近邻x_{i,nm},称为"猜错近邻" (near-miss) ,然后,相关统计量对应于属性 分量为

 

从式 (1 1. 3) 可看出,若 Xi 与其猜中近邻 x_{i,nh}  在属性 上的距离小于 Xi 其猜错近邻x_{i,nm} 的距离 ,则说明属性j 对区分同类与异类样本是有益的,于是 增大属性 j所对应的统计量分量;反之,若 Xi 与其猜中近邻x_{i,nh}  在属性 上的 距离大于 Xi 与其猜错近邻x_{i,nm}  的距离,则说明属性 起负面作用,于是减小 属性 j所对应的统计量分量.最后,对基于不同样本得到的估计结果进行平均,就得到各属性的相关统计量分量,分量值越大,则对应属性的分类能力就越强.
 
 
 
Relie-F是Relief的扩展变体,能处理多分类问题。
假定数据集D中的样本来自 \left | \gamma \right |个类别。对示例xi,若它属于第k类(k∈{1,2,..., \left | \gamma \right |}),则Relie-F先在第k类的样本中寻找xi的最近邻示例 x_{i,nh}并将其作为猜中近邻,然后在第k类之外的每个类中找到一个xi的最近邻示例作为猜错近邻,记为x_{i,l,nm}   (l=1,2,..., \left | \gamma \right |;l \neqk ).
相关统计量对应于属性j的分量为
其中pl为第l类样本在数据集D中所占的比例。

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值