决策树中的熵与信息增益

引言

最近在学习决策树,花了一上午学习了熵与信息增益,这里打算使用一个实例来帮助自己加深理解,和大家一起学习。

熵这一概念是由信息论的鼻祖克劳德·香农创造出来的,刚开始谁也不知道这个词的具体意思(这可能就是香农的初衷),这个词是从热力学中借鉴得来的,大致意思是度量物质的离散以及无组织状态的程度,在信息论中产生了信息熵,大致也可以理解为信息中各类信息的混乱程度,其数学公式为:
在这里插入图片描述
其中,pi代表某一类信息在总数中所占的比例,也就是概率,n代表信息的总数。
举例如下:
对游戏活跃用户进行分层,分为高活跃、中活跃、低活跃,游戏A按照这个方式划分,用户比例分别为20%,30%,50%。游戏B按照这种方式划分,用户比例分别为5%,5%,90%。那么游戏A对于这种划分方式的熵为:
在这里插入图片描述
同理游戏B对于这种划分方式的熵为:
在这里插入图片描述
游戏A的熵比游戏B的熵大,所以游戏A的不确定性比游戏B高。用简单通俗的话来讲,游戏B要不就在上升期,要不就在衰退期,它的未来已经很确定了,所以熵低。而游戏A的未来有更多的不确定性,它的熵更高。

介绍完熵的概念,我们继续看信息增益。为了便于理解,我们还是以一个实际的例子来说明信息增益的概念。假设有下表样本
在这里插入图片描述
第二列为性别,第三列为活跃度,最后一列用户是否流失。我们要解决一个问题:性别和活跃度两个特征,哪个对用户流失影响更大?我们通过计算信息熵可以解决这个问题。

按照分组统计,我们可以得到如下信息:
在这里插入图片描述
其中Positive为正样本(已流失),Negative为负样本(未流失),下面的数值为不同划分下对应的人数。那么可得到三个熵:
整体熵:
在这里插入图片描述
性别熵:
在这里插入图片描述
在这里插入图片描述
性别信息增益:
在这里插入图片描述
同理计算活跃度熵:
在这里插入图片描述
活跃度信息增益:
在这里插入图片描述
活跃度的信息增益比性别的信息增益大,也就是说,活跃度对用户流失的影响比性别大。在做特征选择或者数据分析的时候,我们应该重点考察活跃度这个指标。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值