什么是信息增益(Information Gain)?

参考链接:

  1. 什么是信息增益(Information Gain)?
  2. 信息熵到底是什么

首先建立一棵决策树。信息增益是一个统计量,用来描述一个属性区分数据样本的能力。信息增益越大,那么决策树就会越简洁。这里信息增益的程度用信息熵的变化程度来衡量。
假如我们所做的决策是是否出去玩,属性有风力、潮湿度等等。
那么在有统计样本S的情况下,计算某属性信息增益的步骤如下:

  1. 计算不用属性区分的情况下,决策属性在整体样本中的信息熵。
    E n t r o p y ( S ) = − p + ∗ l o g ( p + ) − p − ∗ l o g ( p − ) Entropy(S)=-p+*log(p+)-p-*log(p-) Entropy(S)=p+log(p+)plog(p)
    其中,p+、p-分别指代的是正例(决策取1,即出去玩)和负例占总记录的比例。系统中各种随机性的概率越均等,信息熵越大,反之越小。
  2. 计算按照该属性把样本分开之后,决策属性在样本中的信息熵。
    以风力属性为例,区分为Weak和Strong,比例分别为 P w e a k P_{weak} Pweak P S t r o n g P_{Strong} PStrong
    那么:
    G a i n ( W i n d ) = E n t r o p y ( S ) − P w e a k ∗ E n t r o p y ( W e a k ) − P S t r o n g ∗ E n t r o p y ( S t r o n g ) Gain(Wind)=Entropy(S)-P_{weak}*Entropy(Weak)-P_{Strong}*Entropy(Strong) Gain(Wind)=Entropy(S)PweakEntropy(Weak)PStrongEntropy(Strong)

最终我们选择信息熵最大的作为根节点,子节点同样。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值