数据科学之机器学习8: 决策树之ID3

最新推荐文章于 2023-02-20 15:07:24 发布

昵称我不需要

最新推荐文章于 2023-02-20 15:07:24 发布

阅读量948

点赞数

分类专栏：数据科学文章标签：大数据机器学习

20 篇文章 0 订阅

订阅专栏

artical 23

“文章原创，转载请注明出处”

ID3算法的核心问题就在于：如何选取在决策树的每个节点处要测试的属性。那么如何去选择呢？当然，我们要选取分类能力最好的属性，那么怎么去确定哪个属性是分类能力最好的呢？ID3算法中，使用信息增益作为评判标准。在看信息增益之前，我们先看看这个决策树的构造过程：

在看信息增益之前，首先需要介绍一个概念，那就是香农熵，简称为熵。相信学过物理的应该大都听过这个名词，在热力学中不就有个熵增原理嘛。其实，熵是信息论中广泛使用的一个度量标准，刻画了任意样例集合的纯度。

熵是信息的期望值，所以可以用熵来刻画一个数据集的纯度。若用 xi,i=1,2,…,n 来表示数据集所包含的属性，那么这个数据集的熵为：

H = - \sum i = 1 n p (x i) l (x i)

其中， p(xi) 表示选取 xi 作为分类的最终类别的概率； l(xi) 为 xi 的信息，定义为： l(xi)=−log2p(xi) 。

有了熵之后就可以刻画一个数据集的纯度，也就是熵值。那么什么信息增益呢？

简单来说，一个属性的信息增益就是：使用这个属性分割样例集合而导致的熵值降低。那么要选取分类能力最好的属性，就是要选取使得信息增益最大的那个属性。

一个属性A对样例集合S的信息增益定义为：

G a i n (S, A) = H (S) - \sum v \in A # S v # S H (S v)

其中， Sv 表示集合S中，属性A取值为 v 的那部分数据； #Sv 表示，集合S中，属性A取值为 v 的个数； #S 表示集合S中观测的个数。

序号	age	income	buy_iphone
1	senior	high	yes
2	senior	low	no
3	youth	high	yes
4	youth	low	no
5	senior	high	yes
6	youth	high	yes
7	senior	high	no

考虑上面这个问题，我们来计算一下各个属性的信息增益。

首先，我们可以看到，这个数据集S最终分类buy_iphone有两种取值： yes,no 。则数据集S的熵值为：

H (S) = - 4 7 log 2 4 7 - 3 7 log 2 3 7 \approx 0.985

若按照age分类，age有两个属性： senior,youth ，分别有4个和3个。age = senior时，yes有2个，no有2个则有：

H a g e (S s e n i o r) = - 2 4 log 2 2 4 - 2 4 log 2 2 4 \approx 1

H a g e (S y o u t h) = - 2 3 log 2 2 3 - 1 3 log 2 1 3 \approx 0.918

则有：

H a g e (S) = 4 7 \times 1 + 3 7 \times 0.918 = 0.965

则age属性的信息增益为：

H (S) - H a g e (S) = 0.985 - 0.965 = 0.020

那么属性income的信息增益怎么去计算，可以动手试试。

ID3(data, label, attrs)：

关注