Chapter 4 决策树和随机森林

本文深入探讨信息熵、联合熵、条件熵、相对熵、互信息等概念,阐述它们在信息理论中的作用。同时,介绍了决策树学习算法,包括ID3、C4.5和CART,以及信息增益、信息增益率和Gini系数在特征选择中的应用。此外,还讨论了这些度量在评估分类不确定性及构建高效决策树模型中的重要性。
摘要由CSDN通过智能技术生成

目录

1 信息熵

1.1 熵

1.2 联合熵

1.3 条件熵

1.4 相对熵

1.5 互信息

1.6 Veen图

2 决策树学习算法

2.1 信息增益

2.2 ID3、C4.5 、CART

3 信息增益率与Gini系数

3.1 定义

3.2 Gini系数相关讨论



1 信息熵

1.1 熵

熵可以理解成概率分布的不确定性的期望值。这个值越大,表示该概率分布不确定性越大。它为我们人类提供的“信息”就越小,我们越难利用这个概率分布做出一个正确的判断。即概率越大越确定,熵就越小。

表达式:H(X)=-\sum_{x}^{}p(x)logp(x)

1.2 联合熵

(X,Y)所包含的熵

表达式:H(X,Y)=-\sum_{x,y}^{}p(x,y)logp(x,y)

1.3 条件熵

(X,Y)所包含的熵,减去X单独发生包含的熵,即在X发生的前提下,Y发生“新”带来的熵。

表达式:H(Y|X)或者H(X,Y)-H(X)

推导:

H(X,Y)-H(X)=-\sum_{x,y}^{}p(x,y)log p(x,y)+\sum_{x}^{}p(x)logp(x)=-\sum_{x,y}^{}p(x,y)log p(x,y)+\sum_{x}^{}(\sum_{y}^{}p(x,y))log(x)=-\sum_{x,y}^{}p(x,y)log p(x,y)+-\sum_{x,y}^{}p(x,y)log p(x)=-\sum_{x,y}^{}p(x,y)log \frac{p(x,y)}{p(x)}=-\sum_{x,y}^{}p(x,y)log p(y|x)=-\sum_{x}^{}\sum_{y}^{}p(x)p(y|x)logp(y|x)=-\sum_{x}^{}p(x)\sum_{y}^{}p(y|x)logp(y|x)=\sum_{x}^{}p(x)H(Y|X=x)=H(Y|X)

1.4 相对熵

相对熵又称互熵、交叉熵、鉴别信息、Kullback熵、Kullback-Leible散度等等。

设p(x)、q(x)是X中取值的两个概率分布,则对p对q的相对熵是

D(p||q)=\sum_{x}^{}p(x)log\frac{p(x)}{q(x)}=E_{p(x)}log\frac{p(x)}{q(x)}

pln\frac{p}{q}=p(lnp-lnq)=plnp-plnq=-(-plnp+plnq)=-(H(p)+lnq^{p})=-H(p)-lnq^{p}

ps:相对熵可以度量两个随机变量的“距离”,想要使得相对熵最小,H(p)是固定的,所以要使得lnq^{p}最大。写成样本为\prod_{i=1}^{m}q_{i}^{p_{i}},求其最大值,即为求最大似然估计。

1.5 互信息

两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。

也可以看作H(Y)和H(Y|X)的差值。

表达式:
I(X,Y)=D(P(X,Y)||P(X)P(Y))=\sum_{x,y}^{}log\frac{p(x,y)}{p(x)p(y)}  

或:I(X,Y)=H(Y)-H(Y|X)

或:I(X,Y)=H(X)+H(Y)-H(X,Y)

度量联合分布和独立分布乘积的“距离”;若X,Y相互独立,那么互信息就为0。

第二个公式推导:
H(Y)-H(Y|X)=-\sum_{y}^{}p(y)logp(y)+\sum_{x,y}^{}p(x,y)logp(y|x)=-\sum_{y}^{}(\sum_{x}^{}p(x,y))logp(y)+\sum_{x,y}^{}p(x,y))log\frac{p(x,y)}{p(x)}=-\sum_{x,y}^{}p(x,y)logp(y)+\sum_{x,y}^{}p(x,y))log\frac{p(x,y)}{p(x)}=\sum_{x,y}^{}p(x,y)log\frac{p(x,y)}{p(x)p(y)}=I(X,Y)

第三个公式推导:

H(X)+H(Y)-H(X,Y)=-\sum_{x}^{}p(x)log(x)-\sum_{y}^{}p(y)log(y)+\sum_{x,y}^{}p(x,y)log(x,y)=-\sum_{x}^{}(\sum_{y}^{}p(x,y))logp(x)-\sum_{y}^{}(\sum_{x}^{}p(x,y))logp(y)+\sum_{x,y}^{}p(x,y)log(x,y)=-\sum_{x,y}^{}p(x,y)logp(x)-\sum_{x,y}^{}p(x,y)logp(y)+\sum_{x,y}^{}p(x,y)log(x,y)=\sum_{x,y}^{}p(x,y)(logp(x,y)-logp(x)-logp(y))=\sum_{x,y}^{}p(x,y)log\frac{p(x,y)}{p(x)p(y)}

1.6 Veen图

2 决策树学习算法

2.1 信息增益

当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵和条件熵分别称为经验熵经验条件熵

信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。

定义:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即g(D,A)=H(D)-H(D|A).

显然,这是训练数据集D和特征A的互信息。

2.2 ID3、C4.5 、CART

ID3:以信息熵下降速度作为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,知道生成的决策树能完美分类训练样例。

C4.5:C4.5算法是ID3算法的一个扩展。使用的是信息增益率。

CART:CART算法也是ID3算法的一个扩展。使用的是Gini系数。

3 信息增益率与Gini系数

3.1 定义

3.2 Gini系数相关讨论

第一定义

 第二定义

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值