信息熵与信息增益

信息熵(information entropy)是度量样本集合纯度/不确定度最常用的指标之一。
但要注意,信息熵越小,表示不确定度越低,确定度越高,纯度越高
E n t ( D ) = − ∑ k = 1 ∣ γ ∣ p k l o g 2 p k Ent(D)=-\sum_{k=1}^{|\gamma|}{p_klog_2p_k} Ent(D)=k=1γpklog2pk

信息熵是对信息量的度量。越小概率的事情发生所产生的信息量越大。
信息量的公式表示如下:
h ( x ) = − l o g 2 p ( x ) h(x)=-log_2p(x) h(x)=log2p(x)

由于概率范围为0-1,因此log2p(x)的范围在负无穷到0,而负号则让信息量变成正数。正好可以得出,一件事情发生的概率越小,信息量越大。
而信息熵则代表了多件不相关的事件发生所产生的信息量之和。

信息增益(information gain) 代表的是在一个条件下,信息复杂度(不确定性)减少的程度,也即纯度提高的程度。
G a i n ( D , a ) = E n t ( D ) − ∑ V v = 1 ∣ D v ∣ D E n t ( D v ) Gain(D, a)=Ent(D)-\sum_{V}^{v=1}{\frac{|D^v|}{D}Ent(D^v)} Gain(D,a)=Ent(D)Vv=1DDvEnt(Dv)
信息增益越大,表示信息的不确定度降低的越多,即信息的纯度越高。
在决策树的ID3算法中,追求的是信息熵越小越好,信息增益越大越好。

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值