我们为什么需要信息增益比，而不是信息增益？

最新推荐文章于 2024-07-11 02:37:24 发布

olenet

最新推荐文章于 2024-07-11 02:37:24 发布

阅读量1.6w

点赞数 21

分类专栏：机器学习文章标签： markdown 决策树机器学习

本文链接：https://blog.csdn.net/OleNet/article/details/46433297

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

我们为什么需要信息增益比，而不是信息增益？

                     表一 满足什么情况才去玩高尔夫 [1]

Day	Temperatrue	Outlook	Humidity	Windy	PlayGolf?
07-05	hot	sunny	high	false	no
07-06	hot	sunny	high	true	no
07-07	hot	overcast	high	false	yes
07-09	cool	rain	normal	false	yes
07-10	cool	overcast	normal	true	yes
07-12	mild	sunny	high	false	no
07-14	cool	sunny	normal	false	yes
07-15	mild	rain	normal	false	yes
07-20	mild	sunny	normal	true	yes
07-21	mild	overcast	high	true	yes
07-22	hot	overcast	normal	false	yes
07-23	mild	sunny	high	true	no
07-26	cool	sunny	normal	true	no
07-30	mild	sunny	high	false	yes

决策树是机器学习中的经典算法，分别由三个经典算法实现： $ID3，C4.5，CART$ ，这三个算法最明显的区别就是对于特征选择的策略不同，不过目的只有一个：使当前数据集的混乱程度降低。具体来说， $ID3$ 使用的信息增益， $C4.5$ 使用的信息增益比， $CART$ 使用的 $Gini$ 指数（基尼指数）

对于 $ID3$ 和 $C4.5$ 的信息增益和信息增益比有什么区别呢，为什么放着信息增益不用，又要计算一个 $gain ratio$ 呢？这就是下面的内容要讨论的。

讨论之前先来几个公式压压惊。

在信息论与概率统计中，熵（entropy）是表示随机变量不确定性的度量[2]。设X的概率分布为

P (X = X i) = p i, i = 1, 2, . . ., n

$P(X=X_i)=p_i , i=1,2,...,n$
则随机变量

X $X$ 的熵定义为

H (X) = - \sum i = 1 n p i l o g p i

$H(X)=-\sum _{i=1}^n p_i log p_i$

其实公式看起来挺吓人的，但是计算的时候很简单。拿表一作为计算的例子，假设

p 1 = N u m (n o) / (N u m (n o) + N u m (y e s))

$p_1=Num(no)/(Num(no)+Num(yes))$ ,

p 2 = N u m (y e s) / (N u m (n o) + N u m (y e s))

$p_2=Num(yes)/(Num(no)+Num(yes))$ 那么

H (D) = - 5 14 l o g 5 14 - 9 14 l o g 9 14 = 0.9403

$H(D)= -{5\over14}log {5\over14} - {9\over14}log {9\over14} =0.9403$

条件熵定义为

H (D | A) = \sum i = 1 n p i H (Y | A = a i)

$H(D|A)=\sum_{i=1}^np_iH(Y|A=a_i)$
条件熵在这里指的就是特征

A $A$ 对训练数据集

D $D$ 经验条件熵，再举一个例子，假如把Outlook作为分隔样本的特征的话，那么

E (O u t l o o k = s u n n y) = - 2 5 l o g 2 5 - 3 5 l o g 3 5 = 0.971

$E(Outlook=sunny)=-{2\over5}log {2\over5} - {3\over5}log {3\over5} =0.971$

E (O u t l o o k = o v e r c a s t) = - 1 l o g 1 - 0 l o g 0 = 0

$E(Outlook=overcast)=-1log {1} - {0}log0 =0$

E (O u t l o o k = r a i n y) = - 3 5 l o g 3 5 - 2 5 l o g 2 5 = 0.971

$E(Outlook=rainy)=-{3\over5}log {3\over5} - {2\over5}log {2\over5} =0.971$

所以

H (D | A) = 5 14 \cdot 0.971 + 4 14 \cdot 0 + 5 14 \cdot 0.971 = 0.693

$H(D|A) = {5\over14}\cdot0.971+{4\over14}\cdot0+{5\over14}\cdot0.971=0.693$

得到了熵和条件熵，那么信息增益就好求了，公式如下

g (D, A) = H (D) - H (D | A)

$g(D,A)=H(D)-H(D|A)$
所以，

g(D,Outlook)=0.9403−0.693 $g(D,Outlook)=0.9403-0.693$ ，以此类推，可以求得

g(D,Temperatrue) $g(D,Temperatrue)$

g(D,Humidity) $g(D, Humidity)$

g(D,Windy) $g(D, Windy)$ ，信息增益越大说明该特征对于减少样本的不确定性程度的能力越大，也就代表这个特征越好。这种选择特征的思路就是ID3算法选择特征的核心思想。

本来 $ID3$ 算法计算信息增益好好的，但是 $C4.5$ 一定要计算信息增益比( $gain ratio$ )这是为什么呢？
还是以表一为例，假如我们想用Day来做为特征(当然实际上一般人也不会傻到用Day用做特征)，显然，每一天都可以将样本分开，也就是形成了一颗叶子数量为14，深度只有两层的树。这种样本分隔的结果就是计算出来的 $H(D|Day)=0$ ,那么 $g(D,Day)=0.9403$ , 这特征可真是够“好”的！不过显然这种特征对于样本的分隔没有任何意义。类似的情况还有人们的身份证号、信用卡号、学号等等特征。
那么导致这样的偏差的原因是什么呢？从上面的例子应该能够感受出来，原因就是该特征可以选取的值过多。解决办法自然就想到了如何能够对树分支过多的情况进行惩罚，这样就引入了下面的公式，属性 $A$ 的内部信息（Intrinsic Information of an Attribute）：

I n t I (D, A) = \sum i | D i | | D | l o g (| D i | | D |)

$IntI(D,A)=\sum_i{|D_i|\over|D|}log({|D_i|\over|D|})$ 这样对于天气来说

IntI(Day)=14⋅(−114⋅log(114))=3.807 $IntI(Day)=14\cdot(-{1\over14}\cdot log({1\over14}))=3.807$
这就是针对分支数目的惩罚项，
这样信息增益比公式就出来了：

g r (D | A) = g ( D ) - g ( D | A ) I n t I ( D , A )

$g_r(D|A)={g(D)-g(D|A)\over IntI(D,A)}$

总结上面的公式，计算得到下表：

OutLook	Temperatrue
Gain:0.940-0.693 = 0.247	Gain:0.940-0.911 = 0.029
Gain ratio: 0.245/1.577 = 0.157	Gain ratio:0.029/1.557 = 0.019

Humidity	Windy
Gain:0.940-0.788 = 0.152	Gain:0.940-0.911 = 0.029
Gain ratio: 0.152/1.000 = 0.152	Gain ratio:0.048/0.985 = 0.049

Day
Gain ratio:0.940/3.807 = 0.246

然而。。。最终还是 $Day$ 的特征优势最大。。。Orz
不过虽然这样，信息增益率还是要比信息增益可靠的多的！另外也可以看出，对特征的筛选也是非常重要的步骤，可以减少信息增益率失效的几率。

[1] http://www.ke.tu-darmstadt.de/lehre/archiv/ws0809/mldm/dt.pdf
[2] 李航. 统计学习方法.

olenet

关注

21
点赞
踩
34

收藏

觉得还不错? 一键收藏
11
评论
我们为什么需要信息增益比，而不是信息增益？

我们为什么需要信息增益比，而不是信息增益？决策树是机器学习中的经典算法，分别由三个经典算法实现：ID3，C4.5，CART，这三个算法最明显的区别就是对于特征选择的策略不同.对于ID3和C4.5的信息增益和信息增益比有什么区别呢，为什么放着信息增益不用，又要计算一个ratio呢？这就是下面的内容要讨论的。
复制链接

扫一扫

专栏目录