Feature Selection Based on Mutual Information:Criteria of Max-Dependency, Max-Relevance,and Min-Redundancy
基于互信息的特征选择:最大依赖、最大相关、最小冗余准则
摘要
特征选择对分类系统有重要意义。本文根据互信息的‘最大统计依赖准则’选择好特征。引入最小冗余最大相关准则(mRMR),结合mRMr和其他复杂特征选择器提出一个两阶段的特征选择算法。与贝叶斯、支持向量机、线性判别分析进行对比分析,在四个数据集上进行对比实验。
特征冗余:特征之间相关性比较大,比如长、宽、面积,面积就是一个冗余特征。
介绍
最佳的表征条件意味着最小的分类错误率。在无监督任务中,最小的错误率需要目标类别在特征子集上有最大统计依赖性。这就是Max-dependency。
最大相关特征选择:选择和目标类别最相关的特征。相关性通常通过关联性和互信息表示,互信息被广泛的用于定义变量的依存关系。
本篇论文讨论基于互信息的特征选择。
互信息(mutual information):信息论里的一种信息度量,可以看成一个随机变量中包含的关于另一个随机变量的信息量,或者说一个随机变量由于另一个随机变量而减少的不确定性。
对于两个随机变量x,y,他们的互信息就是他们的概率密度函数。
在特征选择中,已经广泛认识到,好的特征间的组合不一定会导致良好的分类性能。一些学者已经开始研究通过最小冗余来选择特征。本文提出的mRMR框架最小化冗余并通过一系列冗余和相关直接的度量为离散或连续数据集选择好的特征。
本文关注现有研究没有关注的三个问题:
1.理论分析对第一阶段特征选择mRMR相当于最大依赖,但效率更高。
2.研究了如何将mRMR和其他特征选择方法相结合成为两阶段的特征选择方法。结果表明,mRMR选择出来的特征子集更具有特征性,能够帮助其他特征选择器以低代价选出最优特征子集。
3.通过大量实验验证本文提出算法的效率。
最大依赖,最大相关和最小冗余之间的关系
最大依赖(max-dependency),就是说找一个特征集S,其在目标类c上有最大依赖,(目标类c和特征子集的互信息最大)
如果m=1则很好理解,m>1时采用每次增加一个变量的方法,该变量应当使I(S;c)增加最多。
但存在的问题是多元密度函数的计算比较困难;涉及大量的高维矩阵计算;计算速度慢,在连续变量特征上更加明显。
所以尽管最大依赖特征选择在样本很多,特征很少的情况下能发挥左右,但不适用于高精度、特征较多的分类。
最大相关(max-relevance)准则,是寻找满足(4)的特征,和(2)中的D(S,c)类似,是所有特征和c的互信息的均值
该准则选择的特征可能有比较高的相关性,如果两个特征之间高度相关,移除任一个其类别区分能力不会改变太多