ID3（Iterative Dichotomiser 3）算法原理详解

最新推荐文章于 2024-08-20 21:04:48 发布

npupengsir

最新推荐文章于 2024-08-20 21:04:48 发布

阅读量5.1k

点赞数 2

分类专栏：算法入门文章标签： id3算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012897374/article/details/74505024

版权

算法入门专栏收录该内容

20 篇文章 0 订阅

订阅专栏

1.信息熵

熵这个概念最早起源于物理学，在物理学中是用来度量一个热力学系统的无序程度，而在信息学里面，熵是对不确定性的度量。在1948年，香农引入了信息熵，将其定义为离散随机事件出现的概率，一个系统越是有序，信息熵就越低，反之一个系统越是混乱，它的信息熵就越高。所以信息熵可以被认为是系统有序化程度的一个度量。

假设变量 $X$ 的随机取值为 $X =$ { $x_1, x_2,..., x_n$ },每一种取到的概率分别是{ $p_1, p_2, p_3,...p_n$ },则变量 $X$ 的熵为:

H (X) = - \sum_{i = 1}^{n} p_{i} l o g_{2} p_{i}

$H(X) = -\sum_{i=1}^{n}p_ilog_2p_i$

意思就是一个变量的变化情况越多，那么信息熵越大越不稳定。

2.信息增益

信息增益针对单个特征而言,即看一个特征t,系统有它和没有它时信息熵之差。下面是weka中的一个数据集,关于不同天气是否打球的例子。特征是天气,label是是否打球。

outlook	temperature	humidity	windy	play
sunny	hot	high	FALSE	no
sunny	hot	high	TRUE	no
overcast	hot	high	FALSE	yes
rainy	mild	high	FALSE	yes
rainy	cool	normal	FALSE	yes
rainy	cool	normal	TRUE	no
overcast	cool	normal	TRUE	yes
sunny	mild	high	FALSE	no
sunny	cool	normal	FALSE	yes
rainy	mild	normal	FALSE	yes
sunny	mild	normal	TRUE	yes
overcast	mild	high	TRUE	yes
overcast	hot	normal	FALSE	yes
rainy	mild	high	TRUE	no

共有14个样本，9个正样本(yes)5个负样本(no)，信息熵为:

E n t r o p y (S) = - 9 14 l o g 2 9 14 - 5 14 l o g 2 5 14 = 0.940286

$Entropy(S) = -\frac 9{14}log_2 \frac 9{14}-\frac 5{14}log_2 \frac 5{14}=0.940286$
接下来会遍历outlook, temperature, humidity, windy四个属性，求出用每个属性划分以后的信息熵假设以outlook来划分,此时只关心outlook这个属性，而不再关心其他属性:
这里写图片描述

这里写图片描述

此时的信息熵为:

E n t r o p y (s u n n y) = - 2 5 l o g 2 2 5 - 3 5 l o g 2 3 5 = 0.970951

$Entropy(sunny) = -\frac 2{5}log_2 \frac 2{5}-\frac 3{5}log_2 \frac 3{5}=0.970951$

E n t r o p y (o v e r c a s t) = - 4 4 l o g 2 4 4 - 0 \times l o g 2 0 = 0

$Entropy(overcast) = -\frac 4{4}log_2 \frac 4{4}-0\times log_2 0=0$

E n t r o p y (r a i n y) = - 2 5 l o g 2 2 5 - 3 5 l o g 2 3 5 = 0.970951

$Entropy(rainy) = -\frac 2{5}log_2 \frac 2{5}-\frac 3{5}log_2 \frac 3{5}=0.970951$

总的信息熵为

E n t r o p y = \sum t i = t 0 t n P (t = t i) E n t r o p y (T = t i)

$Entropy = \sum_{t_i=t_0}^{t_n}P(t=t_i)Entropy(T=t_i)$

即

E n t r o p y (S | o u t l o o k) = P (s u n n y) \times E n t r o p y (s u n n y) + P (o v e r c a s t) \times E n t r o p y (o v e r c a s t) + P (r a i n y) \times E n t r o p y (r a i n y) = 0.693536

$Entropy(S|outlook) = P(sunny)\times Entropy(sunny)+P(overcast)\times Entropy(overcast) + P(rainy)\times Entropy(rainy)=0.693536$

$Entropy(S|outlook)$ 指的是选择属性 $Outlook$ 作为分类条件的信息熵,最终属性 $Outlook$ 的信息增益为:

I G (o u t l o o k) = E n t r o p y (S) - E n t r o p y (S | o u t l o o k) = 0.24675

$IG(outlook) = Entropy(S) - Entropy(S|outlook) = 0.24675$

IG：Information Gain(信息增益)

同理可以计算选择其他分类属性的信息增益，选择信息增益最大的属性作为分类属性。分类完成之后，样本被分配到3个叶子叶子节点：

outlook	temperature	humidity	windy	play
sunny	hot	high	FALSE	no
sunny	hot	high	TRUE	no
sunny	mild	high	FALSE	no
sunny	cool	normal	FALSE	yes
sunny	mild	normal	TRUE	yes

outlook	temperature	humidity	windy	play
overcast	mild	high	TRUE	yes
overcast	hot	normal	FALSE	yes
overcast	cool	normal	TRUE	yes
overcast	hot	high	FALSE	yes

outlook	temperature	humidity	windy	play
rainy	mild	high	TRUE	no
rainy	mild	normal	FALSE	yes
rainy	mild	high	FALSE	yes
rainy	cool	normal	FALSE	yes
rainy	cool	normal	TRUE	no

当子节点只有一种 $label$ 时分类结束。若子节点不止一种 $label$ ，此时再按上面的方法选用其他的属性继续分类，直至结束。

3.ID3算法总结

I G (S | t) = E n t r o p y (S) - \sum v a l u e (T) | S v | S E n t r o p y (S v)

$IG(S|t) = Entropy(S)-\sum_{value(T)}\frac {|S_v|}{S}Entropy(S_v)$

IG: Information Gain(信息增益)

其中 $S$ 为全部样本集合， $value(T)$ 属性 $T$ 的所有取值集合， $v$ 是 $T$ 的其中一个属性值， $S_v$ 是 $S$ 中属性 $T$ 的值为v的样例集合， $|S_v|$ 为 $S_v$ 中所含样例数。在决策树的每一个非叶子结点划分之前，先计算每一个属性所带来的信息增益，选择最大信息增益的属性来划分，因为信息增益越大，区分样本的能力就越强。

注意: ID3只能正对nominal attribute，即标称属性

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。