信息增益以及增益率划分属性

不想悲伤到天明

已于 2022-05-29 16:26:22 修改

阅读量1.7w

点赞数 21

分类专栏：机器学习文章标签：决策树机器学习算法

于 2019-05-19 14:15:37 首次发布

本文链接：https://blog.csdn.net/qq_41661809/article/details/90321622

版权

机器学习专栏收录该内容

7 篇文章 2 订阅

订阅专栏

信息熵

信息熵 (information entropy)是度量样本集合纯度最常用的一种指标。假定当前样本集合 $D$ 中的第 $k$ 类样本所占的比例为 $p_{k}$ (k = 1,2... $|\gamma |$ ), 则 D 的信息熵为

$Ent(D) = - \sum_{k=1}^{|\gamma |}p_{k}\log_{2}p_{k}$

Ent(D) 的值越小,则D的纯度越高 .

计算信息熵时约定 : 如果 p = 0,则 $p\log_{2}p$ = 0
Ent(D)的最小值是0,最大值是 $\log_{2}|\gamma |$
|X| 表示X的数量,比如 $|D|$ 表示样本D的数量,下同.

假定随机变量X有两个取值0和1

X	0	1
p(x)	p	1-p

则图像是,

import matplotlib.pyplot as plt 
import numpy as np 
import seaborn as sns 

x = np.arange(0,1,0.01)
y = -x*np.log2(x) -(1-x)*np.log2(1-x) 

sns.set()
plt.grid(visible=True, which='major', linestyle='-')
plt.grid(visible=True, which='minor', linestyle='--', alpha=0.5)
plt.minorticks_on()
plt.xlabel('x')
plt.ylabel('H(x)')
plt.plot(x,y)
# plt.show()
plt.savefig('./h.png')

条件熵

概率定义: 随机变量X在给定条件下随机变量Y的条件熵,公式如下,

$\displaystyle H(Y|X) = \sum p(x) H(Y|X=x)$

或者换一种符号表示,

$\displaystyle Ent(D|D^{v}) = \sum_{v=1}^{V} \frac{|D^{v}|}{|D|} Ent(D^{v})$

假定离散属性 a(西瓜的色泽)有V 个可能的取值{ $a^{1},a^{2},...,a^{V}$ } (比如 {青绿,乌黑,浅白,墨绿 .. })等等吧 ,如果使用a 来对样本集D(西瓜) 进行划分 ,则会产生 V 个分支节点,其中第v 个分支节点包含了D 中所有在属性a上的取值为 $a^{v}$ 的样本 ,记作 $D^{v}$ .

信息增益

根据信息熵的计算公式, 我们可以计算出 $D^{v}$ 的信息熵 ,再考虑到不同的分支节点所包含的样本数不同,给分支节点赋予权重 $\frac{|D^{v}|}{|D|}$ ,也就是样本数越多的分支节点影响越大,于是可以计算出用 a 属性对样本D进行划分所获得的"信息增益"(information gain)

$Gain(D,a) = Ent(D)-Ent(D|D^{v})$

代入,

$Gain(D,a) = Ent(D)-\sum_{v=1}^{V} \frac{|D^{v}|}{|D|} Ent(D^{v})$

一般来说, 信息增益越大,则意味着使用属性a进行划分所获得的"纯度提升"越大 .因此可以用信息增益来进行决策树的划分属性选择.

下面以西瓜数据集为例, 该数据集包含17个样本,用以学习一棵能预测没刨开的是不是好瓜的决策树. 显然 $|\mathcal{Y}|=2$ , 下图中可以看到,正例占 8/17 , 反例占 9/17,

$Ent(D) = -\sum_{k=1}^{2}p_{k}\log_{2}p_{k} =-(\frac{8}{17}\log_{2}\frac{8}{17} + \frac{9}{17}\log_{2}\frac{9}{17}) =0.998$

然后我们计算出当前属性集合{色泽,根蒂,敲声,纹理,脐部,触感} 中每个属性的信息增益. 以属性"色泽" 为例 ,它有两个可能的取值 :{青绿,乌黑,浅白} .使用该属性对D进行划分, 则可得到 3个子集 ,分别记为 D1 (色泽=青绿) D2(色泽=乌黑) D3(色泽=浅白).

子集D1 包含的编号{1,4,6,10,13,17} , 正例(是)占 p1 = 3/6 ,反例(否) 占 p2 = 3/6 ;

子集D2 包含的编号 {2,3,7,8,9,15} , 正例占 p1 = 4/6 , 反例占 p2 = 2/6 ;

子集D3 包含的编号 {5,11,12,14,16} ,正例占p1 = 1/5 , 反例占p2 = 4/5 ;

可计算出"色泽"划分之后所获得的信息熵为:

于是 , 计算出属性 " 色泽"的信息增益为 :

显然这里 Gain(D,纹理) = 0.381 信息增益最大, 于是他被选为划分属性.

然后,决策树学习算法将每一个分支节点做进一步划分. 以图中的一个分支节点("纹理= 清晰") 为例, 该节点包含的样例集合 $D^{1}$ 中有编号 {1,2,3,4,5,8,10,15} 的9 个样例,可用的属性集合为 { 色泽,根蒂,敲声,脐部,触感}; 基于 $D^{1}$ 计算出各属性的信息增益: