信息熵与信息增益

信息熵与信息增益

信息熵

信息熵的出现解决了信息的量化度量问题,由克劳德香农提出,用来描述信息源的不确定程度。信息论之父克劳德香农第一次用数学语言阐明了概率与信息冗余度的关系。


我们可以根据一件事情出现的概率来衡量其确定性。假设:

1.设不确定性函数为f,则f是概率p的单调递减函数。

2.两个独立事件所产生的不确定性等于各自不确定性之和,称为可加性。

同时满足以上两个条件的函数f是对数函数,即f(p)=log(1/p)=-logp

定义信息熵:

我们需要考察所有可能发生情况的平均不确定性。若有n个事件:N1...N2...Nn,对应概率为:P1...P2...Pn,且各种事件的出现彼此独立。此时,信息熵H(U)=∑(i=1,n)pi*log(pi)。式子中对数一般取2为底,但也可以取其他值。

信息增益与特征选择

在信息增益中,衡量标准时看特征值能够为分类系统带来多少信息,带来的信息越多,该特征值越重要。对一个特征而言,系统有它和没有它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量。所谓信息量,就是熵。


特征T给聚类C或分类C带来的信息增益为

IGT(T)=H(C)-H(C|T)


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值