熵、信息增益、信息增益率与基尼指数

最新推荐文章于 2021-04-14 21:22:43 发布

知道不_zkl

最新推荐文章于 2021-04-14 21:22:43 发布

阅读量4.2k

点赞数 8

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_41500849/article/details/80384846

版权

机器学习专栏收录该内容

28 篇文章 2 订阅

订阅专栏

本文主要介绍了熵，信息增益，信息增益率和基尼指数的基本概念，并使用数据样例进行了计算。

数据样例

名称	是否用鳃呼吸	有无鱼鳍	是否为鱼
鲨鱼	是	有	是
鲫鱼	是	有	是
河蚌	是	无	否
鲸	否	有	否
海豚	否	有	否

熵

熵是度量样本集合纯度最常用的一种指标，对于包含m个训练样本的数据集 $D:\{(X^{(1)},(y^{(1)}),(X^{(2)},(y^{(2)}),,\cdots，(X^{(m)},(y^{(m)}),\}$ ,在数据集D中，第k类的样本所占的比例为 $p_k$ ,则数据集D的信息熵为：

E n y t o y (D) = - \sum k = 1 K p k l o g 2 p k

$Enytoy(D) = - \sum \limits _{k=1} ^K p_klog_2p_k$
其中，K表示的是数据集D中类别的个数。对于数据样例中的，是否为鱼这一结果。其信息熵为;

E n t r o y (D) = - \sum k = 1 2 p k l o g 2 p k = - (2 5 l o g 2 2 5 + 3 5 l o g 2 3 5) = 0.971 (1)

$\begin{equation} \begin{aligned} Entroy(D) &= - \sum \limits _{k=1}^2p_klog_2p_k \\ &= -(\frac 2 5log_2\frac 2 5 +\frac 3 5log_2\frac 3 5)\\ & = 0.971 \end{aligned} \tag 1 \end{equation}$
当样本按照特征A的值a划分成两个独立的子数据集

D1 D 1 $D_1$ 和

D2 D 2 $D_2$ 时，此时整个数据集D的熵分为两个独立数据集

D1 D 1 $D_1$ 的熵和

D2 D 2 $D_2$ 的熵的加权和，即：

E n t r o y (D) = | D 1 | | D | E n t r o y (D 1) + | D 2 | | D | E n t r o y (D 2) = - (| D 1 | | D | \sum k = 1 K p k l o g 2 p k + | D 2 | | D | \sum k = 1 K p k l o g 2 p k) (2)

$\begin{equation} \begin{aligned} Entroy(D) &= \frac {|D_1|} {|D|}Entroy(D_1)+\frac {|D_2|} {|D|}Entroy(D_2)\\ &= - (\frac {|D_1|} {|D|} \sum \limits _{k=1}^K p_klog_2p_k+\frac {|D_2|} {|D|}\sum \limits _{k=1}^K p_klog_2p_k)\\ \end{aligned} \tag 2 \end{equation}$
其中，

|D1| | D 1 | $|D_1|$ 表示的是数据集

D1 D 1 $D_1$ 中的样本的个数，

|D2| | D 2 | $|D_2|$ 表示的是数据集

D2 D 2 $D_2$ 中的样本的个数。对于数据样例，将样本按照特征“是否用鳃呼吸”划分成两个独立的子数据集，此时，数据集D的信息熵为：

E n t r o y (D) = 3 5 E n t r o y (D 1) + 2 5 E n t r o y (D 2) = - [3 5 (2 3 l o g 2 2 3 + 1 3 l o g 2 1 3) + 2 5 (l o g 2 1)] = 0.551 (3)

$\begin{equation} \begin{aligned} Entroy(D) &= \frac 3 5Entroy(D_1)+\frac 2 5Entroy(D_2)\\ &= - [\frac 3 5 (\frac 2 3 log_2 \frac 2 3 +\frac 1 3log_2 \frac 1 3)+\frac2 5 (log_21)]\\ & = 0.551 \end{aligned} \tag 3 \end{equation}$

信息增益

由上述的划分可以看出，在划分后的数据集D的信息熵减小了，对于给定的数据集，划分前后信息熵的减少量称为信息增益(information gain)，即：

i g a i n (D, A) = E n t r o y (D) - \sum p = 1 P | D p | | D | E n t r o y (D p)

$igain(D,A) = Entroy(D)-\sum \limits _{p=1}^P \frac {|D_p|}{|D|}Entroy(D_p)$
其中，

|Dp| | D p | $|D_p|$ 表示的是属于第

p p $p$ 类的样本个数。信息熵表示的数据集中的不纯度，信息熵较小表明数据集纯度提升了。在选择数据集划分的标准时，通常选择能够使的信息增益最大的划分。ID3决策树算法就是利用信息增益作为划分数据集的一种方法。数据样例中，

\begin{matrix} (4) & \begin{aligned} i g a i n (D,^{'} 是 否 用 鳃 呼 吸^{'}) & = E n t r o y (D) - \sum_{p = 1}^{P} \frac{| D_{p} |}{| D |} E n t r o y (D_{p}) \\ = 0.971 - 0.551 \\ = 0.44 \end{aligned} \end{matrix}

$\begin{equation} \begin{aligned} igain(D,'是否用鳃呼吸' ) &=Entroy(D)-\sum \limits _{p=1}^P \frac {|D_p|}{|D|}Entroy(D_p) \\ &=0.971-0.551\\ &=0.44 \end{aligned} \tag 4 \end{equation}$

信息增益率

增益率（Gain Ratio)是可以作为选择最优划分属性的方法，增益率的计算公式为：

g a i n_r a t i o (D, A) = i g a i n ( D , A ) I V ( A )

$gain\_ratio(D,A) = \frac {igain(D,A)} {IV(A)}$
其中，

IV(A) I V ( A ) $IV(A)$ 被称为特征A的固有值，即：

I V (A) = - \sum p = 1 P | D p | | D | l o g 2 | D p | | D |

$IV(A) = -\sum \limits _{p=1}^P \frac {|D_p|}{|D|} log_2\frac {|D_p|}{|D| }$
在数据样例中，是否用鳃呼吸作为特征A，其

IV(A) I V ( A ) $IV(A)$ 为：

I V (A) = - \sum p = 1 P | D p | | D | l o g 2 | D p | | D | = - [3 5 l o g 2 3 5 + 2 5 l o g 2 2 5] = 0.971 (5)

$\begin{equation} \begin{aligned} IV(A) & = -\sum \limits _{p=1}^P \frac {|D_p|}{|D|} log_2\frac {|D_p|}{|D| } \\ &= - [\frac 3 5log_2 \frac 3 5+ \frac 2 5log_2 \frac 2 5]\\ & = 0.971 \end{aligned} \tag 5 \end{equation}$
信息增益率为：

g a i n_r a t i o (D, A) = i g a i n ( D , A ) I V ( A ) = 0.971 0.44 = 2.0682 (6)

$\begin{equation} \begin{aligned} gain\_ratio(D,A)& = \frac {igain(D,A)} {IV(A)}\\ &= \frac {0.971}{0.44} \\ &=2.0682 \end{aligned} \tag 6 \end{equation}$
在著名的C4.5决策树算法中就是利用增益率作为划分数据集的方法。

基尼指数

基尼指数（Gini index)也可以选择最优的划分属性，对于数据集D，假设有K个分类，则样本属于第k个类的概率为 $p_k$ 则此概率分布的基尼系数为：

G i n i (p) = \sum k = 1 K p k (1 - p k) = \sum k = 1 K (p k - p 2 k) = 1 - \sum k = 1 K p 2 k (7)

$\begin{equation} \begin{aligned} Gini(p) &= \sum \limits _{k=1}^K p_k(1-p_k) \\ &= \sum \limits _{k=1}^K (p_k-p_k^2) \\ &= 1- \sum \limits _{k=1}^Kp_k^2 \end{aligned} \tag 7 \end{equation}$

对于数据集D，其基尼指数为：

G i n i (D) = 1 - \sum k = 1 K (| C k | | D |) 2

$Gini(D) = 1- \sum \limits _{k=1}^K(\frac {|C_k|}{|D|})^2$
其中，

|Ck| | C k | $|C_k|$ 表示数据集D中，属于类别

k k $k$ 的样本的个数。若此时根据特征A将数据集D划分为独立的两个数据集

D_{1}

$D_1$ 和

D2 D 2 $D_2$ ，此时的基尼指数为:

G i n i (D, A) = | D 1 | | D | G i n i (| D 1 |) + | D 2 | | D | G i n i (| D 2 |)

$Gini(D,A) = \frac {|D_1|} {|D|} Gini(|D_1|)+\frac {|D_2|} {|D|} Gini(|D_2|)$
在数据样例中，数据集D的基尼指数（针对是否为鱼而言）:

G i n i (D) = 1 - \sum k = 1 K p 2 k = 1 - [(2 5) 2 + (3 5) 2] = 0.48 (9)

$\begin{equation} \begin{aligned} Gini(D) &= 1- \sum \limits _{k=1}^Kp_k^2\\ &= 1-[ (\frac 2 5)^2+(\frac 3 5)^2]\\ &= 0.48 \end{aligned} \tag 9 \end{equation}$
利用特征“是否用鳃呼吸”将数据集D划分成独立的两个数据集

D1 D 1 $D_1$ 和

D2 D 2 $D_2$ 后，其基尼指数为：

G i n i (D, A) = | D 1 | | D | G i n i (| D 1 |) + | D 2 | | D | G i n i (| D 2 |) = 3 5 [1 - ((2 5) 2 + (1 3) 2)] + 2 5 [1 - 1] = 0.267 (10)

$\begin{equation} \begin{aligned} Gini(D,A) &= \frac {|D_1|} {|D|} Gini(|D_1|)+\frac {|D_2|} {|D|} Gini(|D_2|)\\ &= \frac 3 5 [1-((\frac 2 5)^2+(\frac1 3)^2)]+\frac 2 5[1-1] \\ &= 0.267 \end{aligned} \tag {10} \end{equation}$

知道不_zkl

关注

8
点赞
踩
14

收藏

觉得还不错? 一键收藏
2
评论
熵、信息增益、信息增益率与基尼指数

本文主要介绍了熵，信息增益，信息增益率和基尼指数的基本概念，并使用数据样例进行了计算。数据样例名称是否用鳃呼吸有无鱼鳍是否为鱼鲨鱼是有是鲫鱼是有是河蚌是无否鲸否有否海豚否有否熵熵是度量样本集合纯度最常用的...
复制链接

扫一扫