决策树

本文详细介绍了决策树的基本概念、信息熵和信息增益,接着讲解了ID3算法的工作原理及存在的问题。接着介绍了C4.5算法,它是ID3的改进版,引入了信息增益率来解决偏好具有大量值特征的问题。最后,讨论了CART算法,它使用基尼指数来选择最佳划分,并且能够处理离散和连续特征,可用于分类和回归问题。
摘要由CSDN通过智能技术生成

决策树1

基本概念

​  在介绍决策树之前,我们需要先学习生成决策树中必不可上的一环—信息熵。
  熵表示的是混乱的程度,对应在分类问题上可以看做集合中标签不确定的程度。对一个标签的集合,其中个标签的比例相当,没有哪一个标签的比例太高或太低,这样确定某一个标签的种类就越难。或者说这个集合中标签的纯度。
​   为了表示这种不确定的程度,我们引入信息的概念。
  设X是一个取有限个值的离散随机变量,其概率分布为:
   P ( X = x i ) = p i , i = 1 , 2 , . . . , n P(X=x_i)=p_i, i=1,2, ... , n P(X=xi)=pi,i=1,2,...,n
   则随机变量X的熵定义为:
   H ( X ) = − ∑ p i ∗ l o g p i , i = 1 , 2 , . . . , n H(X)=- ∑ p_i * logp_i, i=1,2, ... , n H(X)=pilogpi,i=1,2,...,n
在这里插入图片描述
​      H ( X ) H(X) H(X) p p p的关系用图像表示如上

   从图上可以看出,当 P = 0 P=0 P=0 P = 1 P=1 P=1时, H ( p ) = 0 H(p)=0 H(p)=0,随机变量完全没有不确定性,当 p = 0.5 p=0.5 p=0.5时, H ( p ) = 1 H(p)=1 H(p)=1,此时随机变量的不确定性最大。
条件熵:
条件熵(conditional entropy):表示在一直随机变量X的条件下随机变量Y的不确定性度量。

   设随机变量 ( X , Y ) (X, Y) (X,Y),其联合概率分布为$ P(X, Y) = p_{ij}(i=1,2, … , n; j=1,2, … , m) , 随 机 变 量 ,随机变量 X 给 定 的 条 件 下 随 机 变 量 给定的条件下随机变量 Y 的 条 件 熵 的条件熵 H(Y|X)$,定义为X给定条件下Y的条件概率分布的熵对X的数学期望:

   H ( Y ∣ X ) = ∑ p i ∗ H ( Y ∣ X = x i ) H(Y|X)=∑ p_i*H(Y|X=x_i) H(YX)=piH(YX=xi)

  信息增益为 G a i n ( X ) = H ( X ) − H ( Y ∣ X ) Gain(X) = H(X)-H(Y|X) Gain(X)=H(X)H(YX)

ID3算法:

   ID3算法按照划分的最大信息增益作为划分数据集的依据。求未划分前的数据集的信息熵,然后分别求按照每个特征划分后的条件熵(在按照某一个特征划分的条件下,划分后数据集的熵),信息增益就是划分后的熵减去划分前的熵,那个标签的信息增益最大,接下来就按找那个特征划分。因为熵代表的信息的不确定性,我们不断的根据特征划分数据集,剩下的单个数据集会越来越同一,越来越规整,这使得整体熵不断的减少,按照每次最大的信息增益就是一种贪心算法。以为划分后的数据集的大小小于以前的数据集,并且具有同样的结构,能再一次用最大信息增益做划分,采用了分而治之的思想。

  决策树是模拟决策过程中的选择,下面通过一个例子说明:

R I D RID RID a g e age age i n c o m e income income s t u d e n t student student c r e d i t _ r a t i n g credit\_rating credit_rating C l a s s : b u y _ c o m p u t e r Class:buy\_computer Class:buy_computer
1 youth high no fair no
2 youth high
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值