决策树三大算法ID3、C4.5和CART

所有公式内容来自小象学院的邹博老师

一、决策树
决策树是一种树形结构,每一个内部节点表示在某一属性上的测试,每一条分支代表一个测试输出,每一个叶子节点代表一种类别。
决策树采用的是自顶向下的递归方法,其基本思想是以信息熵为度量建立一个信息熵下降最快的树。到叶子节点处的熵值为0,每一个叶子节点中的实例都属于同一类。
需要解决的问题:当前节点应该选择哪个属性来划分。
ID3、C4.5和CART就是用来解决上述问题并建立一棵决策树。

二、ID3算法原理及步骤

1、信息熵
信息熵是对一个事件包含的信息量的期望,该事件包含的信息量跟它可能的结果有关,可以这样认为 信息熵 = (结果1发生时的信息量 + … + 结果n发生时的信息量)。
假设一个事件x结果为1的概率为0.9,为0的概率为0.1。那结果0和结果1都包含了信息,那谁的信息量大呢,显然是结果0,因为它是概率小,如果它发生了那可能有很多不可思议的信息,结果1的概率为0.9,它发生接近必然事件,没有什么信息可言。事件每个结果的发生概率直接决定了这个结果的信息量,而且信息量的大小跟概率是倒数的关系,你小我大,你大我小,因为概率在0和1之间,所以log(概率)表示信息量最合适了,记得加个负号哦。
在这里插入图片描述
现在我们来求事件x的信息熵记为H(x):
假设事件x有k种结果,pi表示每种结果的发生概率。则
H(x):
在这里插入图片描述
乘以pi 相当于加权,因为所有的pi相加等于1。根据公式可知当pi服从均匀分布时信息熵最大,此时所有结果发生概率都为1/k,结果难以预料,所以信息熵可以用来描述一个事件的不确定性。

2、条件熵
上面我们求出了独立事件X的信息熵的公式,现在我们来求事件X和事件Y的联合事件的信息熵H(X,Y):

H(X,Y)=
在这里插入图片描述
其中,小x和小y分别表示事件X和事件Y个某个结果,(x, y)是X结果和Y结果的笛卡儿积。
联合事件的信息熵减去独立事件的信息熵记为条件熵,H(Y|X)表示的是在X事件发生的前提下事件Y发生带来的信息熵,推导如下:
在这里插入图片描述
在这里插入图片描述
因为H(Y|X)表示的是在X事件发生的前提下事件Y发生带来的信息熵,所以上式拆分必须先固定x在固定y。(上式有两种拆法

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值