本文为阅读决策树的个人理解所注笔记,仅供参考。学习决策树之前要理解一些概念信息熵(熵、联合熵、条件熵和互信息)决策树学习算法(信息增益、ID3、C4.5和CART)bagging和随机森林。
概念1、熵
熵:信息的不确定程度。源于信息论热力学第二定律。
举个栗子帮助大家理解什么是熵(信息的混乱程度)?
假设事件x的发生概率为 p ( x ) p\left ( x \right ) p(x),事件y的发生概率为 p ( y ) p\left ( y \right ) p(y)。如果x,y独立,则x,y同时发生的联合概率就是 p ( x , y ) = p ( x ) ⋅ p ( y ) p\left ( x,y \right )=p\left ( x \right )\cdot p\left ( y \right ) p(x,y)=p(x)⋅p(y)。如果想表示x,y交互度量视为0,使得满足可加性,即 p ( x , y ) = p ( x ) ⋅ p ( y ) p\left ( x,y \right )=p\left ( x \right )\cdot p\left ( y \right ) p(x,y)=p(x)⋅p(y)可以表示为一种相加方式(乘积变成加和,方法就是log)。
提个问题:时间的概率发生大,其对应的熵如何呢?
举个栗子:
比如事件x:今天晚上我会吃饭
比如事件y:今天晚上我吃了10个馒头
对于事件x发生的概率很大(90%会发生),事件y发生的概率很小(5%);对于事件x,其本身提供给外界的信息就很少,就意味着熵很小,而事件y熵很大。比如事件x发生1,不发生0,发生概率0.9,不发生概率0.1,则 − l n p ( x ) -lnp\left ( x \right ) −lnp(x)可以表示成如下表格
x | 0 | 1 |
---|---|---|
p | 0.1 | 0.9 |
− l n p ( x ) -lnp\left ( x \right ) −lnp(x) | − l n 0.1 -ln0.1 −ln0.1 | − l n 0.9 -ln 0.9 −ln0.9 |
则 − l n p ( x ) -lnp\left ( x \right ) −lnp(x)期望表示 E p ( − l n p ) = 0.1 ⋅ ( − l n 0.1 ) + 0.9 ⋅ ( − l n 0.9 ) E_{p}\left ( -lnp \right )=0.1\cdot \left ( -ln0.1 \right )+0.9\cdot \left ( -ln0.9 \right ) Ep(−lnp)=0.1⋅(−ln0