信息增益和信息增益比

CY_TEC

已于 2022-05-01 14:12:41 修改

阅读量661

点赞数

文章标签：熵信息增益

于 2022-05-01 14:11:45 首次发布

本文链接：https://blog.csdn.net/CY_TEC/article/details/124525911

版权

本文详细介绍了数据集经验熵、特征对数据集的经验条件熵以及数据集对特征值的熵等概念，用于评估特征在分类任务中的重要性。信息增益和信息增益比作为特征选择的指标，能有效避免连续变量导致的过分支问题。通过计算这些熵，可以衡量特征划分数据后带来的信息减少，从而指导决策树等算法的构建。

摘要由CSDN通过智能技术生成

要理解这两个概念，首先要分清楚三个定义：
数据集经验熵
特征对数据集的经验条件熵
数据集对特征值的熵

符号

$\\ D: 训练样本 \\ |D|: 样本容量 \\ D_i: 根据每个特征 A 的特征值，把样本 D 划分的第 i 个划分训练样本 \\ |D_i|: 第 i 个划分样本容量 \\ label: 样本标签列 \\ C_k: 样本标签是第 k 类，相当于通过标签列，把 D 做了 K 个划分 \\ |C_k|：第 k 类的样本个数 \\ D_{ik} = D_i \cap C_k$

几个概念

数据集经验熵

$-\sum_{k = 1}^K \frac{|C_k|}{|D|}log_2 \frac{|C_k|}{|D|}$
这里的 $H (D)$ 可以认为是按照 $l a b e l$ 划分的熵 $H_{label}(D)$

特征对数据集的经验条件熵

$\sum_{i=1}^n \frac{|D_i|}{|D|}H(D_i)$
其中 $H(D_i)$ 是按照特征 $A$ 划分之后的样本集，再按照 $l a b e l$ 进行划分的经验熵。那么：
$\sum_{i=1}^n \frac{|D_i|}{|D|}H(D_i) = \sum_{i=1}^n \frac{|D_i|}{|D|} *（- \sum_{k = 1}^K \frac{|D_{ik}|}{|D_i|}log_2 \frac{|D_{ik}|}{|D_i|}）$

数据集对特征值的熵

$H_A(D) = - \sum_{i=1}^n \frac{|D_i|}{|D|}log_2 \frac{|D_i|}{|D|}$

为什么要用信息增益比

信息增益： $g (D, A) = H (D) - H (D ∣ A)$
信息增益比： $g_R(D, A) = \frac{g(D,A)}{H_A(D)} \\= \frac{-\sum_{k = 1}^K \frac{|C_k|}{|D|}log_2 \frac{|C_k|}{|D|} - \sum_{i=1}^n \frac{|D_i|}{|D|} *(- \sum_{k = 1}^K \frac{|D_{ik}|}{|D_i|}log_2 \frac{|D_{ik}|}{|D_i|})}{- \sum_{i=1}^n \frac{|D_i|}{|D|}log_2 \frac{|D_i|}{|D|}}$

我们来假设一种情况，当特征 $A$ 是连续型变量时，每一个值，都对应一个类别。
那么 $D_{ik}| = |{D_i}|$ ，导致 $H (D ∣ A) = 0$ ，因为信息熵是大于零的，所以此时选择特征 $A$ 得到的信息熵最大 $g (D, A) = H (D) - H (D ∣ A) = H (D) - 0 = H (D)$ ，与此同时 $H_A(D)$ 会变得非常大。