ID3算法原理详解

blinkyou001

已于 2023-12-23 11:10:00 修改

阅读量8.2k

点赞数 50

分类专栏：机器学习文章标签：算法决策树

于 2023-07-26 13:43:09 首次发布

本文链接：https://blog.csdn.net/blinkyou001/article/details/131935319

版权

机器学习专栏收录该内容

9 篇文章

订阅专栏

1.决策树算法

决策树是一种基于特征对实例进行分类或回归的过程。决策树算法最早产生于上世纪60年代，后由罗斯昆(J Ross Quinlan)提出了ID3算法，通过信息增益选择和分裂特征。之后罗斯昆对进行了优化，提出了C4.5算法。ID3算法是一种决策树分类算法。本文讲解其中的ID3算法。

2.ID3算法原理

2.1 信息熵

2.1.1 信息熵的定义

信息熵是描述信息源各可能事件发生的不确定性。信息论之父 C. E. Shannon 在 1948 年借鉴热力学概念提出了信息熵。

$H(D) = -\sum_{i}^{} p_{_{i}} \log p_{i}$

其中， $p_{i}$ 表示第 $i$ 个类别的概率。类别是指样本的分类类别或者说是要预测的分类。

思考：为何熵的计算公式中会有个负号？由于概率介于0-1之间，取对数后的结果为负数，为了便于计量和分析，故在前面加了个负号。

2.1.2 经验熵与经验条件熵

先看二者的计算公式。

根据某一节点的类别，其经验熵的计算公式如信息熵的概念。

特征 $A$ 的经验熵为：

$H(D_{}) = - \sum_{i}^{}p_{i}\log p_{i}$

其中， $i$ 表示该特征下第 $i$ 个类别， $p_{i}$ 表示该特征的第 $i$ 个类别的概率。

条件熵是指在某一特征或条件下，在相应的特征或条件的各属性的加权信息熵。

设特征 $A$ 有 $J$ 个属性 $A_{1},A_{2},...,A_{J}$ 。

属性 $A_{j}$ 的信息熵为 $H(A_{j}) = -\sum_{i}^{}p_{ji}\log p_{ji}$ , 其中， $i$ 表示该属性的第 $i$ 个类别， $p_{ji}$ 表示该属性中第 $i$ 个类别的概率。

属性 $A_{j}$ 的权重为 $w_{j} = \frac{|A_{j}|}{|A|}$ ，其中 $|A_{j}|$ 表示 $A_{j}$ 对应的样本数量， $|A|$ 表示特征 $A$ 对应的样本数量。

则特征 $A$ 的条件熵为：

$H(D|A) = \sum_{j=1}^{J}w_{j}H(A_{j}) = - \sum_{j=1}^{J}(\frac{|A_{j}|}{|A|}*\sum_{i}^{}p_{ji}\log p_{ji})$

2.1.3 信息增益

特征 $A$ 的信息增益：

$Gain = H(D) - H(D|A)$

信息熵越大，表示样本的不纯度越高，分类算法的思想是降低不纯度，而信息增益表示分裂后所带来的信息熵的下降量。按此标准，信息增益越大，分裂的效果越好。

2.2 ID3算法步骤

2.2.1 输入与输出

输入：训练数据集 $D$ ，特征集 $A$ ，信息增益分裂阈值 $\epsilon$ 。其中训练数据集 $D$ 中包括分类值（可以类似理解为目标值、被解释变量等），分裂阈值 $\epsilon$ 是为了判断是否进一步分裂的条件。

输出：决策树 $T$

2.2.2 算法过程

1、节点预判断

1）若该节点的数据集 $D$ 中所有实例都属于同一类 $C_{k}$ ，则以 $C_{k}$ 作为此节点的分类，此节点分裂结束；

2）若该节点的数据集 $D$ 中所有实例无任何特征或无可用于分裂的属性，以 $D$ 中实例类别数量最多的 $C_{k}$ 作为此节点的实例分类，此节点分裂结束。

否则进入下一步。

2、选择分裂特征

在该分裂的样本集下，计算每一个特征的信息增益，以信息增益最大的特征为该节点的分裂特征，进入下一步。

若多个特征的信息增益相等，随机选择一个特征作为分裂特征；若所有特征最大的信息增益< $\epsilon$ ，则该节点分裂停止，以该节点数据集中实例类别数量最多的 $C_{k}$ 作为该节点的实例分类。

3、节点分类

按该特征的属性分裂产生子节点，以各属性中实例类别数量最多的 $C_{k}$ 作为各子节点的类别。

4、继续分裂

对上一步产生的各子节点，返回第1步循环（递归调用）。直至所有节点分裂结束。

2.2.3 算法说明

从以上过程可以看出：

1、ID3算法是一种贪婪算法，遍历所有特征和属性；

2、ID3算法只适用于分类特征，对于连续性特征不适用；

3、没有考虑缺失值，存在缺失值的需要预处理；

4、一般来讲，特征属性越多，条件熵会越小，信息增益越大。因此，ID3算法倾向于选择属性较多的特征。

3. ID3算法演示

以客户的申请信息来判断是否给予贷款。涉及的特征有年龄、性别、收入、房产、信用表现、审批结果，前5个特征分别记为 $A^{1},A^{2},A^{3},A^{4},A^{5}$ 。以此数据集为样本，记为 $D$ ，应用ID3算法原理进行演示。

3.1 数据集

序号	年龄	性别	收入	房产	信用表现	审批结果
0	青年	男	高	有	优秀	通过
1	青年	男	中	无	一般	通过
2	青年	男	低	无	差	拒绝
3	青年	女	中	有	优秀	通过
4	青年	女	低	无	一般	通过
5	中年	男	高	有	一般	拒绝
6	中年	男	中	无	差	拒绝
7	中年	女	高	有	优秀	通过
8	中年	女	中	有	优秀	通过
9	中年	女	低	无	一般	拒绝
10	老年	男	高	有	优秀	通过
11	老年	男	低	有	差	通过
12	老年	男	低	无	差	拒绝
13	老年	女	中	无	一般	通过
14	老年	女	高	有	差	拒绝

3.2 算法步骤

1）第一层分裂

样本数据的分类，即“审批结果”有两个类别：通过、拒绝，并非同一类，需要分裂。

为选择分裂特征，需要计算各特征的信息增益。为计算信息增益，先计算经验熵和条件熵。

经验熵：

$H_{1}(D) = -(\frac{9}{15}log_{2}\frac{9}{15}+\frac{6}{15}log_{2}\frac{6}{15}) = 0.9710$

年龄的条件熵：

		人数	通过	拒绝
年龄	青年	5	4	1
	中年	5	2	3
	老年	5	3	2

青年、中年、老年的权重分别为： $w_{1} =\frac{5}{15},w_{2} =\frac{5}{15},w_{3} =\frac{5}{15}$

青年的信息熵： $H(A_{1}^{1}) = -(\frac{4}{5}log_{2}\frac{4}{5}+\frac{1}{5}log_{2}\frac{1}{5}) = 0.8879$

中年的信息熵： $H(A_{2}^{1}) = -(\frac{2}{5}log_{2}\frac{2}{5}+\frac{3}{5}log_{2}\frac{3}{5}) = 0.9710$

老年的信息熵： $H(A_{3}^{1}) = -(\frac{3}{5}log_{2}\frac{3}{5}+\frac{2}{5}log_{2}\frac{2}{5}) = 0.9710$

计算年龄特征的条件熵：

$H(D|A^{1}) = w_{1}H(A_{1}^{1}) + w_{2}H(A_{2}^{1}) + w_{3}H(A_{3}^{1}) = 0.8879$

年龄特征的信息增益：

$G(D,A^{1}) =H(D) - H(D,A^{1}) = 0.9710 - 0.8879 = 0.0830$

类似可以计算其它特征的信息增益：

		人数	通过	拒绝
性别	男	8	4	4
性别	女	7	5	2

		人数	通过	拒绝
收入	高	5	3	2
	中	5	4	1
	低	5	2	3

		人数	通过	拒绝
房产	有	8	6	2
房产	无	7	3	4

		人数	通过	拒绝
信用表现	优秀	5	5	0
	一般	5	3	2
	差	5	1	4

特征	经验熵	条件熵	信息增益
年龄	0.9710	0.8879	0.0830
性别	0.9710	0.9361	0.0348
收入	0.9710	0.8879	0.0830
房产	0.9710	0.8925	0.0785
信用表现	0.9710	0.5643	0.4067

注：在计算信用表现的属性“优秀”的信息熵时， $-(\frac{5}{5}log_{2}\frac{5}{5}+\frac{0}{5}log_{2}\frac{0}{5}) = -0 - 0 = 0$ ，涉及计算 $\lim_{x\rightarrow 0^{+}}x\log_{2} x = 0$ ，有兴趣的读者可以了解一下极限运算，此处不作说明。

从上表可以看出，信用表现的信息增益最高。若最大信息增益的特征有多个，可以随机选择一个。其属性有优秀、一般、差。特征选择完毕。

该节点的分类。“优秀”属性中，类别最多的为“通过”，该属性归类为“通过”；“一般”属性中，类别最多的为“通过”，该属性归类为“通过”；“差”属性中，类别最多的为“拒绝”，该属性归类为“拒绝”。

2）第二层分裂

分别对信用表现特征的三个属性作为预判断，再决定是否继续分裂。

a）优秀

该节点下的数据都属于“通过”一类。无需再分裂。

b）一般

样本数据的分类，即“审批结果”有两个类别：通过、拒绝，并非同一类，需要分裂。

序号	年龄	性别	收入	房产	审批结果
1	青年	男	中	无	通过
4	青年	女	低	无	通过
5	中年	男	高	有	拒绝
9	中年	女	低	无	拒绝
13	老年	女	中	无	通过

先计算其经验熵：

$H_{2}(A_{2}^{5}) = -(\frac{3}{5}log_{2}\frac{3}{5}+\frac{2}{5}log_{2}\frac{2}{5})=0.9710$ ，其中 $H_{2}(A_{2}^{5})$ 表示第二层分裂、第5个特征（信用表现）的第2个属性（一般）的熵。

信息增益计算：

特征	经验熵	条件熵	信息增益
年龄	0.9710	0.0000	0.9710
性别	0.9710	0.9510	0.0200
收入	0.9710	0.4000	0.5710
房产	0.9710	0.6490	0.3220

年龄的信息增益最大，选择年龄作为进一步分裂的特征。年龄的属性有：青年、中年、老年。

继续分裂：

青年分类均为“通过”，中年分类均为“拒绝”，老年分类均为“通过”。本节点分裂结束。

c）差

样本数据的分类，即“审批结果”有两个类别：通过、拒绝，并非同一类，需要分裂。

序号	年龄	性别	收入	房产	审批结果
2	青年	男	低	无	拒绝
6	中年	男	中	无	拒绝
11	老年	男	低	有	通过
12	老年	男	低	无	拒绝
14	老年	女	高	有	拒绝