互信息特征评价准则

本文引自西北工业大学杨宏晖老师的《模式识别之特征选择》

1、信息增益准则

对一个特征而言,系统有它和没有它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量,即增益。衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。

识别系统中,特征的信息增益就是一个特征与类别的互信息,该互信息值越大,说明该特征与类别越相关,即该特征包含的分类信息越多,该特征也越重要,根据重要性对特征进行排序,如下式所示:

eval=I(f;C)=H(C)-H(C|f)

2、最大相关最小冗余

我们定义一个特征与其他特征的互信息的平均值为冗余度,结合信息增益准则,得到最大相关最小冗余性准则,如下式所示:

eval=I(f_i;C)-\beta\sum_{j=1}^{i-1}I(f_i;f_j)

信息增益准则可以计算特征和类别之间的相关度,但仅根据“最大相关性”可能存在冗余特征,因而加入“最小冗余性”条件以便选择互斥的特征,因为当两个特征高度依赖时,去除其中的一个特征对系统的分类能力影响不大,而且去除冗余特征可以减少学习算法的计算量,加快识别系统处理时间。因此在信息增益的基础上减去加权的冗余度(其中权值根据数据集中冗余特征的程度进行设定),得到特征评价函数。

3、互信息混合评价准则

从上述内容可以看到,互信息对特征提供了多角度的评价函数。在特征选择中,我们不仅要找到对分类贡献最大的特征,同时希望找到那些可以为这些特征提供补充信息的特征,并删除冗余特征。下式提出了将特征与类别的互信息与最大条件混信息混的特征评价准则。这个准则的应用是:利用特征与类别的互信息评价出最优特征,再以此特征为条件,找出和它互补并包含最多分类信息的特征,并删除冗余特征。

eval=I(f_i;C)-\beta\sum_{j=1}^{i-1}I(f_i;f_j)-\gamma \sum_{j=1}^{i-1}I(f_i;f_j|C)

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值