决策树之 ID3 算法

最新推荐文章于 2024-08-22 03:00:00 发布

Q-WHai

最新推荐文章于 2024-08-22 03:00:00 发布

阅读量1.5w

点赞数 14

分类专栏：数据挖掘机器学习文章标签： ID3 决策树数据挖掘大数据

本文链接：https://blog.csdn.net/lemon_tree12138/article/details/51837983

版权

数据挖掘同时被 2 个专栏收录

10 篇文章

订阅专栏

机器学习

5 篇文章

订阅专栏

概述

ID3 算法是构建决策树算法中一种非常重要的算法，可以说它是学习决策树算法的基础吧。比如，下一篇博客要说的 C4.5 决策树，就是基于 ID3 上的一个改进算法。还有 CART、随机森林算法，都是后面要讲解的。

版权说明

著作权归作者所有。
商业转载请联系作者获得授权，非商业转载请注明出处。
本文作者：Q-WHai
发表日期： 2016年7月6日
本文链接：https://qwhai.blog.csdn.net/article/details/51837983
来源：CSDN
更多内容：分类 >> 数据挖掘

引言

如果你是刚刚才接触到有关决策树的相关内容，那么你可能就会有一些疑问，什么是决策树？对于什么是决策树这个话题，如果站在编程的角度来类比，我想 if … else 是最贴切的了吧。就比如下面的这样的一棵最简单的决策树。
这里写图片描述
这是一棵是否出门打球的决策树，而决策的特征属性就是 Weather，如果天气状态为 Sunny、Overcast 则选择出门打球；如果下雨了那就只能待在家里了。
如果上面的这棵决策树是按照我的选择来构建的，那么你的选择又会构建成一棵什么样的决策树呢？也就是说某一棵决策树只能代表某一种情况，可是我们是想拿构建好的决策树进行预测的，所以这时，就不能再只按照某一个人的意愿来构建决策树了。我们需要收集大量的训练数据，并使用这些训练数据进行构建决策树。

基础知识

数据挖掘的基础是数学，如果数学不太好，就一定要好好补补了（我也是数学不太好的那些人当中的一个）。ID3 算法当然也不例外地涉及了一些数学知识。主要的是两块内容：信息熵与信息增益。

信息熵

信息熵简介

中学时期，我们都有学习过熵的概念，主要是在物理跟化学中。在物理学科中，熵是用来描述分子的混乱程度的，在化学学科中也是类似的，如果我没有记错的话，当时熵在化学中的应用主要是某一化合物的加热这一块，比如给水加热，会变化水蒸汽，这时熵就是增大的；还就是化合反应这一块。
那么在本文的 ID3 算法中，或者说在数据挖掘中的信息熵要怎么理解或是怎么应用呢？这里不妨打个最简单的比方，我们说假设有两篇文章，分别为：Article_1 和 Article_2，它们的内容如下：
Article_1

信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵
信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵
信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵
信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵信息熵

Article_2

信息论之父 C. E. Shannon 在 1948 年发表的论文“通信的数学理论（ A Mathematical Theory of Communication ）”中， Shannon 指出，任何信息都存在冗余，冗余大小与信息中每个符号（数字、字母或单词）的出现概率或者说不确定性有关。
Shannon 借鉴了热力学的概念，把信息中排除了冗余后的平均信息量称为“信息熵”，并给出了计算信息熵的数学表达式。

对于上面的这两篇文章，我们要怎么衡量其信息量呢？文章的字数么？显然不是的，第一篇文章的字数要比第二篇文章的字数要多，然而其包含的信息量却要小一些。于是，信息熵的概念就此被引出，结合上面对熵的描述，你也可以理解成信息熵就是信息的混乱程度。

信息熵公式

假如一个随机变量 X 的取值为 X = { ${x_1, x_1, ..., x_n}$ }，每一种取到的概率分别是 { ${p_1, p_1, ..., p_n}$ }，那么 X 的熵定义为
$\sum_{i=1}^{n}{p_i}{log_2}{p_i}}$

信息增益

信息增益简介

信息增益的功能是描述一个特征属性对于总体的重要性，怎么理解这句话呢？打个比方吧，比如我想出去打球，这里可能会受到天气、温度、心情等等的因素地影响。那么对于天气这个特征属性而言，有天气这个属性跟没有天气这个属性，总体的信息量（也就是信息熵）的变化就是信息增益了。
可能这里还不太清楚信息增益在决策树的构建中产生了什么作用，这个问题我们留到 ID3 算法部分再详细说明。

信息增益公式

$\sum_{value(T)}{\frac{|S_v|}{S}}{Entropy(S_v)} }$
其中 S 为全部样本集合，value(T) 是属性 T 所有取值的集合，v 是 T 的其中一个属性值， ${S_v}$ 是 S 中属性 T 的值为 v 的样例集合， ${|S_v|}$ 为 ${S_v}$ 中所含样例数。

ID3

决策树构建分析

ID3 是数据挖掘中的一种非常重要的决策树构建算法，它是一种监督学习式的机器学习。由于这是一种监督学习，所以必然需要有一定数量的训练数据集，而每一条训练数据所形成的决策树都不一定是完全一样的。打个比方，假设有如下三条训练数据：

Day	OutLook	Temperature	Humidity	Wind	PlayTennis
1	Sunny	Hot	High	Weak	No
2	Sunny	Hot	High	Strong	No
3	Rainy	Mild	High	Weak	Yes

那么对于 OutLook 这一特征属性而言，就有两种不同的状态值：Sunny 和 Rainy。就算是对于同一个 OutLook 状态值时，其结果分类也是一样的，这样我们构建的决策的标准是什么呢？

训练数据集

假设我们如下训练数据集

Day	OutLook	Temperature	Humidity	Wind	PlayTennis
1	Sunny	Hot	High	Weak	No
2	Sunny	Hot	High	Strong	No
3	Overcast	Hot	High	Weak	Yes
4	Rainy	Mild	High	Weak	Yes
5	Rainy	Cool	Normal	Weak	Yes
6	Rainy	Cool	Normal	Strong	No
7	Overcast	Cool	Normal	Strong	Yes
8	Sunny	Mild	High	Weak	No
9	Sunny	Cool	Normal	Weak	Yes
10	Rainy	Mild	Normal	Weak	Yes
11	Sunny	Mild	Normal	Strong	Yes
12	Overcast	Mild	High	Strong	Yes
13	Overcast	Hot	Normal	Weak	Yes
14	Rainy	Mild	High	Strong	No

决策树构建过程

下面是我根据 ID3 构建决策树的算法步骤，绘制的决策树构建过程图。因为 ID3 其实是一个迭代的算法，这里我只绘制了一次迭代的过程，所以是一个局部示图。
这里写图片描述
当上面的局部过程中的最后一步计算出了最大信息增益之后，我们要将这个最大信息增益对应的特征属性进行移除，并将数据集切分成 N 个部分（其中 N　为分支状态数）。
现在假设我们计算出当选择特征属性为 OutLook 的时候，其信息增益最大，那么原始数据就会被切分成如下 3 份：
part_sunny

Day	Temperature	Humidity	Wind	PlayTennis
1	Hot	High	Weak	No
2	Hot	High	Strong	No
3	Mild	High	Weak	No
4	Cool	Normal	Weak	Yes
5	Mild	Normal	Strong	Yes

part_overcast

Day	Temperature	Humidity	Wind	PlayTennis
1	Hot	High	Weak	Yes
2	Cool	Normal	Strong	Yes
3	Mild	High	Strong	Yes
4	Hot	Normal	Weak	Yes

part_rainy

Day	Temperature	Humidity	Wind	PlayTennis
1	Mild	High	Weak	Yes
2	Cool	Normal	Weak	Yes
3	Cool	Normal	Strong	No
4	Mild	Normal	Weak	Yes
5	Mild	High	Strong	No

这样再把这 3 份数据分别当成上图中的 data 代入计算。通过这样循环地迭代，直到数据被全部计算完成。

计算步骤

如果上面信息熵跟信息增益的计算公式，让你看得有一些不是很懂，没关系。这里我会通过几个示例来分析一下计算过程，这样你就会更懂一些了。

Entropy(S)
Entropy( ${T_i}$ )
Entropy(S|T)
IG(T)

Entropy(S)

对于最初始的 14 条记录，我们统计了结果分类，其中，Yes = 9，No = 5.
这时当前信息的信息熵计算过程如下：
$ {Entropy(S) = -\frac{9}{14} log_2\frac{9}{14} - \frac{5}{14} log_2\frac{5}{14} = 0.940286 } $

Entropy( ${T_i}$ )

假设这时我们需要计算最初始的 14 条记录中，特征属性为 OutLook 的分支状态信息熵。首先需要做的是，统计 OutLook 特征属性下的结果分类分布。

	Sunny	Overcast	Rainy
Yes	2	4	3
No	3	0	2

各个特征属性下的分支状态信息熵计算过程如下：
$ {Entropy(Sunny) = -\frac{2}{5} log_2\frac{2}{5} - \frac{3}{5} log_2\frac{3}{5} = 0.970951 } $
$ {Entropy(Overcast) = -\frac{4}{4} log_2\frac{4}{4} - \frac{0}{4} log_2\frac{0}{4} = 0 } $
$ {Entropy(Rainy) = -\frac{3}{5} log_2\frac{3}{5} - \frac{2}{5} log_2\frac{2}{5} = 0.970951 } $

Entropy(S|T)

统计完各个分支状态的信息熵之后，就需求合并，也就是某一特征属性的信息熵了。
$ {Entropy(S|OutLook) = {\frac{5}{14}*Entropy(Sunny)} + {\frac{4}{14}*Entropy(Overcast)} + {\frac{5}{14}*Entropy(Rainy)} = 0.693536 } $