机器学习实战（2）决策树（一） ID3算法

最新推荐文章于 2021-05-23 04:41:08 发布

BlueLoveyyt

最新推荐文章于 2021-05-23 04:41:08 发布

阅读量2.3k

点赞数

分类专栏：机器学习实战

机器学习实战专栏收录该内容

5 篇文章 0 订阅

订阅专栏

转自：百度百科

ID3算法是一种贪心算法，用来构造决策树。ID3算法起源于概念学习系统（CLS），以信息熵的下降速度为选取测试属性的标准，即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准，然后继续这个过程，直到生成的决策树能完美分类训练样例。

1背景知识

ID3算法最早是由罗斯昆（J. Ross Quinlan）于1975年在悉尼大学提出的一种分类预测算法，算法的核心是“信息熵”。ID3算法通过计算每个属性的信息增益，认为信息增益高的是好属性，每次划分选取信息增益最高的属性为划分标准，重复这个过程，直至生成一个能完美分类训练样例的决策树。

决策树是对数据进行分类，以此达到预测的目的。该决策树方法先根据训练集数据形成决策树，如果该树不能对所有对象给出正确的分类，那么选择一些例外加入到训练集数据中，重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。

决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点，每个分支是一个新的决策结点，或者是树的叶子。每个决策结点代表一个问题或决策，通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中，在每个结点都会遇到一个测试，对每个结点上问题的不同的测试输出导致不同的分支，最后会到达一个叶子结点，这个过程就是利用决策树进行分类的过程，利用若干个变量来判断所属的类别。

2ID3算法

ID3算法是由Quinlan首先提出的。该算法是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。以下是一些信息论的基本概念：

定义1：若存在n个相同概率的消息，则每个消息的概率p是1/n，一个消息传递的信息量为-Log2(1/n)

定义2：若有n个消息，其给定概率分布为P=(p1,p2…pn)，则由该分布传递的信息量称为P的熵，记为

。

定义3：若一个记录集合T根据类别属性的值被分成互相独立的类C1C2..Ck，则识别T的一个元素所属哪个类所需要的信息量为Info(T)=I(p)，其中P为C1C2…Ck的概率分布，即P=(|C1|/|T|,…..|Ck|/|T|)

定义4：若我们先根据非类别属性X的值将T分成集合T1,T2…Tn，则确定T中一个元素类的信息量可通过确定Ti的加权平均值来得到，即Info(Ti)的加权平均值为：

Info(X, T)=(i=1 to n 求和)((|Ti|/|T|)Info(Ti))

定义5：信息增益度是两个信息量之间的差值，其中一个信息量是需确定T的一个元素的信息量，另一个信息量是在已得到的属性X的值后需确定的T一个元素的信息量，信息增益度公式为：

Gain(X, T)=Info(T)-Info(X, T)

ID3算法计算每个属性的信息增益，并选取具有最高增益的属性作为给定集合的测试属性。对被选取的测试属性创建一个节点，并以该节点的属性标记，对该属性的每个值创建一个分支据此划分样本.

数据描述

所使用的样本数据有一定的要求,ID3是:

描述- 属性-值相同的属性必须描述每个例子和有固定数量的价值观。

预定义类-实例的属性必须已经定义的,也就是说,他们不是学习的ID3。

离散类-类必须是尖锐的鲜明。连续类分解成模糊范畴(如金属被“努力,很困难的,灵活的,温柔的,很软”都是不可信的。

足够的例子——因为归纳概括用于(即不可查明)必须选择足够多的测试用例来区分有效模式并消除特殊巧合因素的影响。

属性选择

ID3决定哪些属性如何是最好的。一个统计特性,被称为信息增益,使用熵得到给定属性衡量培训例子带入目标类分开。信息增益最高的信息(信息是最有益的分类)被选择。为了明确增益,我们首先从信息论借用一个定义，叫做熵。每个属性都有一个熵。

ID3算法是J. Ross Quinlan在1975提出的分类预测算法，当时还没有数据挖掘吧，哈哈哈。该算法的核心是“信息熵”,属于数学问题，我也是从这里起发现数据挖掘最底层最根本的不再是编程了，而是数学，编程只是一种实现方式而已，数学才是基础，如：朴素贝叶斯分类，小波聚类，尤其是我正在搞的支持向量机，它就是高等代数，空间解析几何，概率统计的综合应用。记得读本科时，朱琛学姐说过,数学学得再好也不为过。我现在深刻体会到了。

信息熵就是一组数据包含的信息，概率的度量。一组数据越有序信息熵也就越低，极端时如果一组数据中只有一个非0，其它都是0，那么熵等于0，因为只有可能是这个非0的情况发生，它给人们的信息已经确定了，或者说不含有任何信息了，因为信息熵含量为0。一组数据越无序信息熵也就越高，极端时如果一组数据均匀分布，那么它的熵最大，因为我们不知道那种情况发生的概率大些。假如一组数据由{d1,d2,...,dn}构成，其和是sum,那么求信息熵的公式是。

分类预测算法属于有指导学习，方法是通过训练数据，按照参考属性对目标属性的依赖程度对参考属性分级别处理，这种分级别处理体现在创建决策树，目的是通过生成的判别树，产生规则，用来判断以后的数据。以如下数据为例：

共14条记录，目标属性是，是否买电脑，共有两个情况，yes或者no。参考属性有4种情况，分别是，age,income,student,credit_rating。属性age有3种取值情况，分别是,youth,middle_aged,senior,属性income有3种取值情况，分别是,high,medium,low,属性student有2种取值情况，分别是，no,yes,属性credit_rating有2种取值情况，分别是fair,excellent。我们先求参考属性的信息熵：

，式中的5表示5个no,9表示9个yes,14是总的记录数。接下来我们求各个参考属性在取各自的值对应目标属性的信息熵，以属性age为例，有3种取值情况，分别是youth,middle_aged,senior，先考虑youth，youth共出现5次，3次no,2次yes,于是信息熵：
类似得到middle_aged和senior的信息熵，分别是：0和0.971。整个属性age的信息熵应该是它们的加权平均值：

。下面引入信息增益（information gain）这个概念，用Gain(D)表示，该概念是指信息熵的有效减少量，该量越高，表明目标属性在该参考属性那失去的信息熵越多，那么该属性越应该在决策树的上层（如果不好理解，可以用极限的方法，即假如在age属性上，当为youth时全部是on,当为middle时也全部是no,当为senior时全不是yes,那么Hage(D)=0)。,类似可以求出Gain(income)=0.029,Gain(stduent)=0.151,Gain(credit_rating)=0.048。最大值为Gain(age),所以首先按照参考属性age，将数据分为3类，如下：