熵，信息增益，信息增益率，基尼指数(附案例)

最新推荐文章于 2022-04-25 11:03:49 发布

迷雾总会解

最新推荐文章于 2022-04-25 11:03:49 发布

阅读量2.7k

点赞数 2

分类专栏：数据挖掘机器学习/深度学习文章标签：数据挖掘决策树信息熵基尼指数

本文链接：https://blog.csdn.net/qq_44766883/article/details/109902922

版权

数据挖掘同时被 2 个专栏收录

19 篇文章 6 订阅

订阅专栏

机器学习/深度学习

16 篇文章 12 订阅

订阅专栏

数据样例

名称	是否用鳃呼吸	有无鱼鳍	是否为鱼
鲨鱼	是	有	是
鲫鱼	是	有	是
河蚌	是	无	否
鲸	否	有	否
海豚	否	有	否

熵

熵(Entropy) 是度量样本集合纯度最常用的一种指标，对于包含m个训练样本的数据集D:{(X⁽¹⁾,y⁽¹⁾⁾,(X⁽²⁾,y⁽²⁾),⋯，(X^(m),y^(m))} ,在数据集D中，第k类的样本所占的比例为 $p_k$ ,则数据集D的信息熵为：

$\sum_{i=1}^m p_ilog_2(p_i)$

其中，K表示的是数据集D中类别的个数。对于数据样例中的，是否为鱼这一结果。其信息熵为;

$\sum_{i=1}^2p_ilog_2p_i = -\frac{2}{5}log_2\frac{2}{5} - \frac{3}{5}log_2\frac{3}{5} = 0.971$

当样本按照特征A的值a划分成两个独立的子数据集 $D_1和 D_2$ 时，此时整个数据集D的熵分为两个独立数据集 $D_1$ 的熵和 $D_2$ 的熵的加权和，即：

$\begin{aligned} Info_A(D) &= \sum_{j=1}^{2}\frac{|D_j|}{|D|} × Info(D) \\ &= - \frac{|D_1|}{|D|}\sum_{k=1}^Kp_klog_2p_k - \frac{|D_2|}{|D|}\sum_{k=1}^Kp_klog_2p_k \end{aligned}$

其中， $D_1|$ 表示的是数据集 $D_1|$ 中的样本的个数， $D_2|$ 表示的是数据集 $D_2|$ 中的样本的个数。对于数据样例，将样本按照特征“是否用鳃呼吸”划分成两个独立的子数据集，此时，数据集D的信息熵为：

$\begin{aligned} Info_A(D) &= \frac{3}{5}Info(D_1) + \frac{2}{5}Info(D_2)\\ &= - \frac{3}{5}(\frac{2}{3}log_2\frac{2}{3}+ \frac{1}{3}log_2\frac{1}{3}) - \frac{2}{5}log_21 \\ &=0.551 \end{aligned}$

信息增益

由上述的划分可以看出，在划分后的数据集D的信息熵减小了，对于给定的数据集，划分前后信息熵的减少量称为 信息增益(information gain)，就是原来的信息需求与新的信息需求的差。即：

$Gain(A) = Info(D) - Info_A(D)$

信息熵表示的数据集中的不纯度，信息熵较小表明数据集纯度提升了。在选择数据集划分的标准时，通常选择能够使的信息增益最大的划分。ID3决策树算法就是利用信息增益作为划分数据集的一种方法。数据样例中，

$Gain('是否用鳃呼吸') = Info(D) - Info_A(D) = 0.971 - 0.551 = 0.44$

缺陷：该方法倾向于选择具有大量值的属性。例如，按id分组，此时每个分区值包含一个元组，由于每个分区都是纯的，所以基于该划分对数据集D分类所需要的信息为 $info_{id}(D) = 0$ 。因此通过对该属性的划分得到的信息增益最大。显然，这种划分对分类没用。

信息增益率

在上面，我们提到了ID3使用信息增益进行判断的缺陷，那么如何改进呢？

ID3的后继C4.5使用一种称为 增益率（Gain Ratio) 的信息增益扩充，试图克服这种偏依。它用 分裂信息(split information) 值将信息增益规范化，如下：

$SplitInfo_A(D) = - \sum_{j=1}^v \frac{|D_j|}{D} × log_2(\frac{|D_j|}{|D|})$

增益率定义为：

$\frac{Grain(A)}{SplitInfo_A(D)}$

此时如果分类以id进行，不难看出我们的SplitInfo也会很大，这样就会对我们求得的结果进行一个矫正，避免出现极端情况。

在数据样例中，是否用鳃呼吸作为特征A，其 SplitInfo_A(D) 为：

$\begin{aligned} SplitInfo_A(D) & = - \sum_{j=1}^v \frac{|D_j|}{D} × log_2(\frac{|D_j|}{|D|}) \\ & = -\frac{3}{5}log_2\frac{3}{5} - \frac{2}{5}log_2\frac{2}{5} \\ & = 0.971 \end{aligned}$