决策树三大算法ID3、C4.5和CART

最新推荐文章于 2024-07-02 11:41:12 发布

watermelon12138

最新推荐文章于 2024-07-02 11:41:12 发布

阅读量2.2k

点赞数 3

本文链接：https://blog.csdn.net/watermelon12138/article/details/83960049

版权

所有公式内容来自小象学院的邹博老师

一、决策树
决策树是一种树形结构，每一个内部节点表示在某一属性上的测试，每一条分支代表一个测试输出，每一个叶子节点代表一种类别。
决策树采用的是自顶向下的递归方法，其基本思想是以信息熵为度量建立一个信息熵下降最快的树。到叶子节点处的熵值为0，每一个叶子节点中的实例都属于同一类。
需要解决的问题：当前节点应该选择哪个属性来划分。
ID3、C4.5和CART就是用来解决上述问题并建立一棵决策树。

二、ID3算法原理及步骤

1、信息熵
信息熵是对一个事件包含的信息量的期望，该事件包含的信息量跟它可能的结果有关，可以这样认为信息熵 = (结果1发生时的信息量 + … + 结果n发生时的信息量)。
假设一个事件x结果为1的概率为0.9，为0的概率为0.1。那结果0和结果1都包含了信息，那谁的信息量大呢，显然是结果0，因为它是概率小，如果它发生了那可能有很多不可思议的信息，结果1的概率为0.9，它发生接近必然事件，没有什么信息可言。事件每个结果的发生概率直接决定了这个结果的信息量，而且信息量的大小跟概率是倒数的关系，你小我大，你大我小，因为概率在0和1之间，所以log(概率)表示信息量最合适了，记得加个负号哦。
在这里插入图片描述
现在我们来求事件x的信息熵记为H(x):
假设事件x有k种结果，p_i表示每种结果的发生概率。则
H(x):

乘以p_i 相当于加权，因为所有的p_i相加等于1。根据公式可知当p_i服从均匀分布时信息熵最大，此时所有结果发生概率都为1/k，结果难以预料，所以信息熵可以用来描述一个事件的不确定性。

2、条件熵
上面我们求出了独立事件X的信息熵的公式，现在我们来求事件X和事件Y的联合事件的信息熵H(X,Y)：

H(X,Y)=
在这里插入图片描述
其中，小x和小y分别表示事件X和事件Y个某个结果，(x, y)是X结果和Y结果的笛卡儿积。
联合事件的信息熵减去独立事件的信息熵记为条件熵，H(Y|X)表示的是在X事件发生的前提下事件Y发生带来的信息熵，推导如下：
在这里插入图片描述

因为H(Y|X)表示的是在X事件发生的前提下事件Y发生带来的信息熵，所以上式拆分必须先固定x在固定y。(上式有两种拆法