C4.5算法原理详解

blinkyou001

已于 2024-12-30 19:27:18 修改

阅读量2k

点赞数 8

分类专栏：机器学习文章标签：算法决策树

于 2023-10-28 17:38:27 首次发布

本文链接：https://blog.csdn.net/blinkyou001/article/details/134087924

版权

机器学习专栏收录该内容

9 篇文章

订阅专栏

1.C4.5算法与决策树算法

C4.5算法是决策树算法的一种。决策树是一种基于特征对实例进行分类或回归的过程。罗斯昆(J Ross Quinlan)在ID3算法的基础上进行了优化，提出了C4.5算法。 C4.5算法与ID3算法的最大变化在于，引入了信息增益比作为特征分裂的依据。如此，类似于将信息增益进行了“正则化”处理，减轻“过拟合”的风险（这里仅是打个比方。越是简单的规律，越有可能泛化。）。

ID3算法可参见：ID3算法原理详解_blinkyou001的博客-CSDN博客

2.C4.5算法原理

此部分先讲解一下信息熵（经验熵、条件熵）、信息增益、信息增益比，然后讲解一下算法的步骤。部分内容在ID3算法的文章中有详细讲解，此处只简述。

2.1 信息熵

信息熵是描述信息源各可能事件发生的不确定性。其公式为：

$H(D) = -\sum_{i}^{} p_{_{i}} \log p_{i}$

其中， $p_{i}$ 表示第 $i$ 个类别的概率。

由此衍生出两个概念：经验熵、条件熵。

1）经验熵

特征 $A$ 的经验熵为：

$H(D_{}) = - \sum_{i}^{}p_{i}\log p_{i}$

2）条件熵

设特征 $A$ 有 $J$ 个属性 $A_{1},A_{2},...,A_{J}$ 。

属性 $A_{j}$ 的信息熵为 $H(A_{j}) = -\sum_{i}^{}p_{ji}\log p_{ji}$ , 其中， $i$ 表示该属性的第 $i$ 个类别， $p_{ji}$ 表示该属性中第 $i$ 个类别的概率。

属性 $A_{j}$ 的权重为 $w_{j} = \frac{|A_{j}|}{|A|}$ ，其中 $|A_{j}|$ 表示 $A_{j}$ 对应的样本数量， $|A|$ 表示特征 $A$ 对应的样本数量。

则特征 $A$ 的条件熵为：

$H(D|A) = \sum_{j=1}^{J}w_{j}H(A_{j}) = - \sum_{j=1}^{J}(\frac{|A_{j}|}{|A|}*\sum_{i}^{}p_{ji}\log p_{ji})$

2.2 信息增益

特征 $A$ 的信息增益：

$Gain = H(D) - H(D|A)$

2.3 信息增益比

按特征 $A$ 的 $J$ 个属性将数据集 $D$ 划分为 $D_{1},D_{2},...,D_{J}$ ， $\left | D_{j} \right |$ 表示数据集 $D_{j}$ 的样本数量，

$j=1,2,...,J$

特征 $A$ 的分裂信息：

$H_{split}=-\sum_{j=1}^{J}\frac{|D_{j}|}{|D|}log_{2}\frac{|D_{j}|}{|D|}$

特征 $A$ 的信息增益比：

$Gain_{r} = \frac{Gain}{H_{split}(D)}=\frac{H(D)-H(D|A)}{H_{split}(D)}$

从信息增益的计算过程可以看出，当特征的属性较多时，条件熵的值倾向于越小，信息增益越大。从信息增益比的公式可以看出，当两特征的信息增益相同时，分裂信息越小的（“混沌”程度越低）特征的信息增益比越大。

2.4 C4.5算法步骤

C4.5算法步骤与ID3算法步骤类似。

2.4.1 输入与输出

输入：训练数据集 $D$ ，特征集 $A$ ，信息增益分裂阈值 $\epsilon$ 。其中训练数据集 $D$ 中包括分类值（可以类似理解为目标值、被解释变量等），分裂阈值 $\epsilon$ 是为了判断是否进一步分裂的条件。

输出：决策树 $T$

2.4.2 算法过程

1、节点预判断

1）若该节点的数据集 $D$ 中所有实例都属于同一类 $C_{k}$ ，则以 $C_{k}$ 作为此节点的分类，此节点分裂结束；

2）若该节点的数据集 $D$ 中所有实例无任何特征或无可用于分裂的属性，以 $D$ 中实例类别数量最多的 $C_{k}$ 作为此节点的实例分类，此节点分裂结束。

否则进入下一步。

2、选择分裂特征

在该分裂的样本集下，计算每一个特征的信息增益比，以信息增益比最大的特征为该节点的分裂特征，进入下一步。

若多个特征的信息增益比相等，随机选择一个特征作为分裂特征；若所有特征最大的信息增益比< $\epsilon$ ，则该节点分裂停止，以该节点数据集中实例类别数量最多的 $C_{k}$ 作为该节点的实例分类。

3、节点分类

按该特征的属性分裂产生子节点，以各属性中实例类别数量最多的 $C_{k}$ 作为各子节点的类别。

4、继续分裂

对上一步产生的各子节点，返回第1步循环（递归调用）。直至所有节点分裂结束。

3.C4.5算法演示

本部分算法演示选择与ID3算法原理详解_blinkyou001的博客-CSDN博客文中相同的例子进行演示。

以客户的申请信息来判断是否给予贷款。涉及的特征有年龄、性别、收入、房产、信用表现、审批结果，前5个特征分别记为 $A^{1},A^{2},A^{3},A^{4},A^{5}$ 。以此数据集为样本，记为 $D$ 。

3.1 数据集

序号	年龄	性别	收入	房产	信用表现	审批结果
1	青年	男	高	有	优秀	通过
2	青年	男	中	无	一般	通过
3	青年	男	低	无	差	拒绝
4	青年	女	中	有	优秀	通过
5	青年	女	低	无	一般	通过
6	中年	男	高	有	一般	拒绝
7	中年	男	中	无	差	拒绝
8	中年	女	高	有	优秀	通过
9	中年	女	中	有	优秀	通过
10	中年	女	低	无	一般	拒绝
11	老年	男	高	有	优秀	通过
12	老年	男	低	有	差	通过
13	老年	男	低	无	差	拒绝
14	老年	女	中	无	一般	通过
15	老年	女	高	有	差	拒绝

3.2 算法步骤

1）第一层分裂

样本数据的分类，即“审批结果”有两个类别：通过、拒绝，并非同一类，需要分裂。

为选择分裂特征，需要计算各特征的信息增益。为计算信息增益，先计算经验熵和条件熵。

经验熵：

$H_{1}(D) = -(\frac{9}{15}log_{2}\frac{9}{15}+\frac{6}{15}log_{2}\frac{6}{15}) = 0.9710$

年龄的条件熵：

		人数	通过	拒绝
年龄	青年	5	4	1
	中年	5	2	3
	老年	5	3	2

青年、中年、老年的权重分别为： $w_{1} =\frac{5}{15},w_{2} =\frac{5}{15},w_{3} =\frac{5}{15}$

青年的信息熵： $H(A_{1}^{1}) = -(\frac{4}{5}log_{2}\frac{4}{5}+\frac{1}{5}log_{2}\frac{1}{5}) = 0.8879$

中年的信息熵： $H(A_{2}^{1}) = -(\frac{2}{5}log_{2}\frac{2}{5}+\frac{3}{5}log_{2}\frac{3}{5}) = 0.9710$

老年的信息熵： $H(A_{3}^{1}) = -(\frac{3}{5}log_{2}\frac{3}{5}+\frac{2}{5}log_{2}\frac{2}{5}) = 0.9710$

计算年龄特征的条件熵：

$H(D|A^{1}) = w_{1}H(A_{1}^{1}) + w_{2}H(A_{2}^{1}) + w_{3}H(A_{3}^{1}) = 0.8879$

年龄特征的信息增益：

$G(D,A_{1})=H(D)-H(D,A^{1})=0.9710-0.8879=0.0831$

年龄的分裂信息：

$H_{split}(D)=-(\frac{5}{15}*log_{2}\frac{5}{15}+\frac{5}{15}*log_{2}\frac{5}{15}+\frac{5}{15}*log_{2}\frac{5}{15})=1.5850$

年龄特征的信息增益比：

$G_{r}(D,A)=\frac{G(D,A)}{H_{1}(D)}=\frac{0.0831}{1.5850}=0.0524$

类似可以计算其它特征的信息增益：

		人数	通过	拒绝
性别	男	8	4	4
性别	女	7	5	2

		人数	通过	拒绝
收入	高	5	3	2
	中	5	4	1
	低	5	2	3

		人数	通过	拒绝
房产	有	8	6	2
房产	无	7	3	4

		人数	通过	拒绝
信用表现	优秀	5	5	0
	一般	5	3	2
	差	5	1	4

特征	经验熵	条件熵	信息熵	分裂信息	信息增益比
年龄	0.971	0.8879	0.0831	1.585	0.0524
性别	0.971	0.9361	0.0349	0.9968	0.035
收入	0.971	0.8879	0.0831	1.585	0.0524
房产	0.971	0.8925	0.0785	0.9968	0.0788
信用表现	0.971	0.5643	0.4067	1.585	0.2566

从上表可以看出，信用表现的信息增益比最高。若最大信息增益的特征有多个，可以随机选择一个。其属性有优秀、一般、差。特征选择完毕。

该节点的分类。“优秀”属性中，类别最多的为“通过”，该属性归类为“通过”；“一般”属性中，类别最多的为“通过”，该属性归类为“通过”；“差”属性中，类别最多的为“拒绝”，该属性归类为“拒绝”。

2）第二层分裂

分别对信用表现特征的三个属性作为预判断，再决定是否继续分裂。

a）优秀

该节点下的数据都属于“通过”一类。无需再分裂。

b）一般

样本数据的分类，即“审批结果”有两个类别：通过、拒绝，并非同一类，需要分裂。

序号	年龄	性别	收入	房产	审批结果
2	青年	男	中	无	通过
5	青年	女	低	无	通过
6	中年	男	高	有	拒绝
10	中年	女	低	无	拒绝
14	老年	女	中	无	通过

先计算其经验熵：

$H_{2}(A_{2}^{5}) = -(\frac{3}{5}log_{2}\frac{3}{5}+\frac{2}{5}log_{2}\frac{2}{5})=0.9710$ ，其中 $H_{2}(A_{2}^{5})$ 表示第二层分裂、第5个特征（信用表现）的第2个属性（一般）的熵。

类似计算得到：

特征	经验熵	条件熵	信息熵	分裂信息	信息增益比
年龄	0.971	0	0.971	1.5219	0.638
性别	0.971	0.951	0.02	0.971	0.0206
收入	0.971	0.4	0.571	1.5219	0.3752
房产	0.971	0.649	0.322	0.7219	0.446

年龄的信息增益比最大，选择年龄作为进一步分裂的特征。年龄的属性有：青年、中年、老年。

继续分裂：

青年分类均为“通过”，中年分类均为“拒绝”，老年分类均为“通过”。本节点分裂结束。

c）差

样本数据的分类，即“审批结果”有两个类别：通过、拒绝，并非同一类，需要分裂。

序号	年龄	性别	收入	房产	审批结果
3	青年	男	低	无	拒绝
7	中年	男	中	无	拒绝
12	老年	男	低	有	通过
13	老年	男	低	无	拒绝
15	老年	女	高	有	拒绝

先计算其经验熵：

$H_{2}(A_{3}^{5}) = -(\frac{4}{5}log_{2}\frac{4}{5}+\frac{1}{5}log_{2}\frac{1}{5})=0.7219$ ，其中 $H_{2}(A_{3}^{5})$ 表示第二层分裂、第5个特征（信用表现）的第1个属性（差）的熵。

条件熵与信息增益比：

特征	经验熵	条件熵	信息熵	分裂信息	信息增益比
年龄	0.7219	0.551	0.1709	1.371	0.1247
性别	0.7219	0.649	0.0729	0.7219	0.101
收入	0.7219	0.551	0.1709	1.371	0.1247
房产	0.7219	0.4	0.3219	0.971	0.3315