特征选择之最小冗余最大相关性(mRMR)

原创 2017年05月12日 17:37:04

最小冗余最大相关性(mRMR)是一种滤波式的特征选择方法,由Peng et.al提出。
用途:图像识别,机器学习等
一种常用的特征选择方法是最大化特征与分类变量之间的相关度,就是选择与分类变量拥有最高相关度的前k个变量。但是,在特征选择中,单个好的特征的组合并不能增加分类器的性能,因为有可能特征之间是高度相关的,这就导致了特征变量的冗余。这就是Peng et.al说的“the m best features are not the best m features”。因此最终有了mRMR,
即最大化特征与分类变量之间的相关性,而最小化特征与特征之间的相关性。这就是mRMR的核心思想。

互信息

定义:给定两个随机变量x和y,他们的概率密度函数(对应于连续变量)为p(x),p(y),p(x,y),则互信息为

I(x;y)=p(x,y)logp(x,y)p(x)p(y)dxdy

mRMR算法

我们的目标就是找出含有m{xi}个特征的特征子集S
离散变量
最大相关性:

maxD(S,c),D=1|S|ΣxiSI(xi;c)

xiicS
最小冗余度:
minR(S),R=1|S|2Σxi,xjSI(xi;xj)

连续变量
最大相关性:
maxDF,DF=1|S|ΣxiSF(xi;c)

F(xi,c)F
最小冗余度:
minRc,R=1|S|2Σxi,xjSc(xi;xj)

c(xi,xj)
当然,对于这些目标函数,还可以换做其他的函数,像信息增益,基尼指数等。
然后整合最大相关性和最小冗余度:
加法整合:
maxΦ(D,R),Φ=DR

乘法整合:
maxΦ(D,R),Φ=D/R

在实践中,用增量搜索方法寻找近似最优的特征。假设我们已有特征集Sm1,我们的任务就是从剩下的特征XSm1中找到第m个特征,通过选择特征使得Φ(.)最大。增量算法优化下面的条件:
maxxjXSm1[I(xj;c)1m1ΣxiSm1I(xj;xi)]

其算法的复杂度为O(|S|M)

算法优点

  • 速度快
  • 估计结果更鲁棒
  • I(.)的一阶最优估计

参考
【Hanchuan Peng et.al】Feature Selection Based on Mutual Information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy
【Barry O’Sullivan, Cork】Feature Selection for High-Dimensional Data

版权声明:本文为博主原创文章,未经博主允许不得转载。

最大相关最小冗余MATLAB程序

  • 2015年11月02日 21:55
  • 3KB
  • 下载

使用随机森林和mRMR进行特征选择

算法性能的好坏跟数据是密不可分的,因此找到一组更具代表性的特征子集显得更加重要。在实际项目中,因为有的特征对模型而言是冗余的,它对算法的性能会产生负面影响,此时就需要做特征选择。特征选择的目的就是从一...
  • wtq1993
  • wtq1993
  • 2016年05月30日 19:03
  • 5782

典型相关分析Matlab程序

  • 2013年04月29日 10:50
  • 7KB
  • 下载

关于ElasticSearch性能调优几件必须知道的事

(零)ElasticSearch架构概述   ElasticSearch是现在技术前沿的大数据引擎,常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统,其中Logsta...
  • lxlmycsdnfree
  • lxlmycsdnfree
  • 2018年01月16日 21:56
  • 81

mRMR算法包

  • 2016年04月18日 13:45
  • 27KB
  • 下载

8种常见算法比较

8种常见机器学习算法比较 2016-08-04 17:46 转载 陈圳 0条评论 雷锋网(搜索“雷锋网”公众号关注)按:本文转自刘志伟责编,在机器学习中选择一个恰当的...
  • qq_32425503
  • qq_32425503
  • 2016年08月09日 17:42
  • 2363

【备忘】2018新品Elasticsearch顶尖高手系列:高手进阶篇(最新第二版)

Elasticsearch顶尖高手系列:高手进阶篇(最新第二版) 2018年新品 视频+课件+源码 课程介绍 本套课程是《Elasticsearch顶尖高手系列》...
  • qq_38155396
  • qq_38155396
  • 2018年01月21日 10:11
  • 18

最大边界相关法(Maximal Marginal Relevance)的总结

MMR(Maximal Marginal Relevance)是一种重新确定文档序值的方法。 具体公式如下: 由上述公式可以看出sim(Q,di)代表的是di的相关性,而sim(di,dj...
  • Eliza1130
  • Eliza1130
  • 2014年04月18日 17:33
  • 4980

特征选择方法学习笔记(二)

之前看过了mRMR的方法了,从特征与目标的最大相似度和特征与特征间的最小冗余出发来寻找特征子集。这样的方法的确是不错的,在实验中取得了鲁棒的效果。但是经过和别的方法对比后发现,该方法目前在选择特征上以...
  • zhuchengzhang
  • zhuchengzhang
  • 2013年12月11日 19:30
  • 1341

mrmr 最大关联度-最小冗余度 特征选择

在做特征选择时,可能面临两个问题:特征与类别预测有多大相关性,特征之间有多大冗余度。在特征选择中,“最好的m个特征不一定是m个最好的特征”,从相关度与冗余度来看,最好的m个特征是指与分类最相关的特征,...
  • banbuduoyujian
  • banbuduoyujian
  • 2017年03月05日 11:05
  • 686
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:特征选择之最小冗余最大相关性(mRMR)
举报原因:
原因补充:

(最多只允许输入30个字)