id3算法c语言实现,从ID3到C5.0的故事：算法详解及实践应用

最新推荐文章于 2024-08-20 21:04:48 发布

电动星球蟹老板

最新推荐文章于 2024-08-20 21:04:48 发布

阅读量534

点赞数

文章标签： id3算法c语言实现

原标题：从ID3到C5.0的故事：算法详解及实践应用

在前面，我们分别概述性地介绍了决策树的基本知识：

1.算法概述

ID3(Iterative Dichotomiser3)算法可以说决策树算法中最著名的代表，它在1979年，由澳大利亚的计算机科学家，罗斯.昆兰(J.R.Quinlan)所发表出来。ID3算法在发表后，就引起了整个工业界的大量关注，并且其他科学家也根据ID3相继提出了ID4，ID5等等的相关算法。

考虑到ID4等名称已经被占用，昆兰只好在1993年的ID3算法的更新上，使用了C4.5(Classifier 4.5)这个名称，而后根据C4.5进一步推出了商业化的版本C5.0。C5.0作为商业化版本，主要在计算速度和运行内存上进行改进，但由于商业化版本并没进一步提供具体算法细节，因此后续主要介绍ID3及C4.5算法。

在前面决策树概述中，我们说到，我们可以通过集合的“纯度”来进行划分条件的选择。而ID3算法则使用了信息熵这一度量指标来衡量集合的纯度。熵(Entropy)这个概念最早出现在热力学中，是由德国物理学家及数学家鲁道夫·尤利乌斯·埃马努埃尔·克劳修斯所提出，它的物理意思表示该体系的混乱程度，简单地说，如果该体系下的分子运动杂乱程度增加，该体系的熵也随着增加。在熵这个概念普及之后，在1948年，信息论之父克劳德·艾尔伍德·香农提出了信息熵的概念。类比下来，我们可以认为信息熵这一度量是用来描述信息的“混乱”程度或者说信息的不确定度。

关于信息熵的通俗理解可以查看如下文章：

回到ID3算法中，不妨假设我们的样本集合D中含m类样本，其中每一类样本的比例分别为p(k)(k=1,2,…,m)，则集合D的信息熵我们定义为：

计算时，定义有

Ent(D)越大，集合D的不纯程度越高，Ent(D)越小，集合D的纯度越高。因此也有一些文献中提到信息熵用以衡量样本集合的“不纯”纯度。另外不难证明，当存在某p(k)=1时，Ent(D)，取得最小值，纯度达到最高；另外可以证明，当存在n种情况都是等可能发生的情况下，即：

信息的不确定度越大，Ent(D)达到最大。

显然，对于父节点，我们需要选择一个最佳划分条件，使得利用这个划分条件划分后的子集纯度更高，即划分后的信息熵达到最小。假如我们选择了变量C对集合D进行划分为n个子集，每个子集的信息熵为：

而所有子集的信息熵则可以表示为：

其中，N是父节点样本数量，n是该测试条件的分组数量(如学历可以分为：初中，高中，本科，硕士及以上，则n=4)，N(Di)则是每个分组子集的样本数量。Ent(D|C)也就是集合D在已知随机变量C条件下的条件熵。

为了验证测试条件C的效果，则需要比较父结点与子女结点间的纯度差异，这种差异越大，说明该测试条件越好，而信息增益Gain则是这种差异的判断标准：

接下来，我们回到决策树算法概述中谈到的例子，看电影问题。

浩彬老撕重新收集了样本数据进行举例说明决策树的生成，该数据包含了12个样本，除了ID字段外，我们希望通过这个人决策当天是否属于周末以及工作完成情况来判断当天他是否外出看电影。

根据公式，可以计算得到根节点的信息熵为：

接下来我们分别计算利用属性集中不同划分条件进行划分后的信息增益，以“今天是否周末”这个变量为例，进行划分后分成子集D1(看电影，看电影，看电影，看电影，看电影，不看电影)及子集D2(不看电影，不看电影，不看电影，不看电影)，因此对应子集D1的正例比例p(11)=5/6，反例比例p(12)=1/6。对应子集D1的正例比例P(21)=0，反例比例P(22)=1。所以对于“今天是否周末”这个划分条件划分后的每个子集的信息熵为：