特征选择方法之互信息

         互信息是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量,具体的计算公式为:


        其中U、C代表两个事件,e的取值可以为0或者1,1代表出现这个事件,0代表不出现。

      把上述公式拆解为统计形式为:


      其中N11是表示全部数据中两个事件同时出现的概率,N表示全部事件出现的次数,而N0.则表示N01+N00。


     实际做单特征选择的时候,我们把某个特征是否出现和分类是否正确这两个事件放在一起计算。把得分较高的特征进行保留。

需要注意的是计算时会遇到四种情况也就是,10,11,01,00,对于其中的某一种情况,当计算得到的值是0时,代表了两者没有关联,当计算出的值是正值时,表示两者共同出现的概率比较高,当值为负时,表示两者是负相关。例如:00情况是负值是,表示两者互相排斥,出现A时,B出现的概率就比较小,这个时候往往01情况和10情况的值为正。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值