决策树原理以及代码详解

本文为阅读决策树的个人理解所注笔记,仅供参考。学习决策树之前要理解一些概念信息熵(熵、联合熵、条件熵和互信息)决策树学习算法(信息增益、ID3、C4.5和CART)bagging和随机森林

概念1、熵

熵:信息的不确定程度。源于信息论热力学第二定律。
举个栗子帮助大家理解什么是熵(信息的混乱程度)?
假设事件x的发生概率为 p ( x ) p\left ( x \right ) p(x),事件y的发生概率为 p ( y ) p\left ( y \right ) p(y)。如果x,y独立,则x,y同时发生的联合概率就是 p ( x , y ) = p ( x ) ⋅ p ( y ) p\left ( x,y \right )=p\left ( x \right )\cdot p\left ( y \right ) p(x,y)=p(x)p(y)。如果想表示x,y交互度量视为0,使得满足可加性,即 p ( x , y ) = p ( x ) ⋅ p ( y ) p\left ( x,y \right )=p\left ( x \right )\cdot p\left ( y \right ) p(x,y)=p(x)p(y)可以表示为一种相加方式(乘积变成加和,方法就是log)。

提个问题:时间的概率发生大,其对应的熵如何呢?

举个栗子:
比如事件x:今天晚上我会吃饭
比如事件y:今天晚上我吃了10个馒头
对于事件x发生的概率很大(90%会发生),事件y发生的概率很小(5%);对于事件x,其本身提供给外界的信息就很少,就意味着很小,而事件y很大。比如事件x发生1,不发生0,发生概率0.9,不发生概率0.1,则 − l n p ( x ) -lnp\left ( x \right ) lnp(x)可以表示成如下表格

x 0 1
p 0.1 0.9
− l n p ( x ) -lnp\left ( x \right ) lnp(x) − l n 0.1 -ln0.1 ln0.1 − l n 0.9 -ln 0.9 ln0.9

− l n p ( x ) -lnp\left ( x \right ) lnp(x)期望表示 E p ( − l n p ) = 0.1 ⋅ ( − l n 0.1 ) + 0.9 ⋅ ( − l n 0.9 ) E_{p}\left ( -lnp \right )=0.1\cdot \left ( -ln0.1 \right )+0.9\cdot \left ( -ln0.9 \right ) Ep(lnp)=0.1(ln0

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值