特征选择之最小冗余最大相关性(mRMR)

mRMR(最小冗余最大相关性)是一种特征选择方法,旨在最大化特征与分类变量的相关性,同时最小化特征间的冗余。该方法通过互信息度量相关性和冗余,并通过增量搜索找到近似最优特征子集。mRMR适用于图像识别和机器学习等领域,具有速度快、结果鲁棒和一阶最优估计的优点。
摘要由CSDN通过智能技术生成

最小冗余最大相关性(mRMR)是一种滤波式的特征选择方法,由Peng et.al提出。
用途:图像识别,机器学习等
一种常用的特征选择方法是最大化特征与分类变量之间的相关度,就是选择与分类变量拥有最高相关度的前k个变量。但是,在特征选择中,单个好的特征的组合并不能增加分类器的性能,因为有可能特征之间是高度相关的,这就导致了特征变量的冗余。这就是Peng et.al说的“the m best features are not the best m features”。因此最终有了mRMR,
即最大化特征与分类变量之间的相关性,而最小化特征与特征之间的相关性。这就是mRMR的核心思想。

互信息

定义:给定两个随机变量x和y,他们的概率密度函数(对应于连续变量)为 p ( x ) , p ( y ) , p ( x , y ) p(x),p(y),p(x,y) p(x),p(y),p(x,y),则互信息为
I ( x ; y ) = ∫ ∫ p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) d x d y I(x;y)=\int\int p(x,y)log\frac{p(x,y)}{p(x)p(y)}dxdy I(x;y)=p(x,y)logp(x)p(y)p(x,y)dxdy

mRMR算法

我们的目标就是找出含有 m { x i } m\{x_i\} m{ xi}个特征的特征子集 S S S
离散变量
最大相关性:
m a x D ( S , c ) , D = 1 ∣ S ∣ Σ x i ∈ S I ( x i ; c ) maxD(S,c), D=\frac{1}{|S|}\Sigma_{x_i\in S}I(x_i;c) maxD(S,c),D=S1Σx

评论 40
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值