条件熵公式详细解释、举例说明计算步骤

彬彬侠

已于 2024-10-01 18:48:49 修改

阅读量4.1k

点赞数 26

分类专栏：机器学习(笔记) 数学基础文章标签：机器学习概率论决策树人工智能

于 2024-09-30 23:06:09 首次发布

本文链接：https://blog.csdn.net/u013172930/article/details/142665137

版权

360 篇文章

订阅专栏

63 篇文章

订阅专栏

公式 7-4 是条件熵的表达式：
$\sum_{i=1}^m p(X = x_i) E(Y | X = x_i)$

这个公式表示的是条件熵，它是衡量在已知某一特征 $X$ 的情况下，随机变量 $Y$ 的不确定性（熵）。条件熵 $E (Y ∣ X)$ 的含义是：在已知 $X$ 的值的情况下， $Y$ 的不确定性有多大。它通过对所有可能的 $X$ 的取值的熵进行加权平均来计算。

$E (Y ∣ X)$ ：这是条件熵，表示在给定 $X$ 的条件下， $Y$ 的不确定性。它衡量了已知 $X$ 的值后， $Y$ 仍然有多少不确定性。如果 $X$ 对 $Y$ 的影响很大，那么条件熵会很低；如果 $X$ 无法有效区分 $Y$ 的类别，那么条件熵会较高。
$\sum_{i=1}^m$ ：这个符号表示对 $X$ 的所有可能取值进行求和。即我们对 $X$ 的每一个取值 $x_i$ 都要计算相应的条件熵并加权平均。 $m$ 是随机变量 $X$ 的可能取值数量。
$p(X = x_i)$ ：这是边缘概率，表示 $X$ 取某个值 $x_i$ 的概率。它表示了在数据集中 $X$ 取值为 $x_i$ 的样本所占比例。
$E(Y|X = x_i)$ ：这是在 $X$ 已知为 $x_i$ 的条件下， $Y$ 的熵，即条件熵。它衡量了在 $X = x_i$ 的条件下， $Y$ 的不确定性。通常，条件熵使用公式 $x_i) = - \sum_{j=1}^n p(Y = y_j | X = x_i) \log p(Y = y_j | X = x_i)$ 来计算，其中 $p(Y = y_j | X = x_i)$ 是条件概率，表示在 $X = x_i$ 时 $Y$ 为 $y_j$ 的概率。

条件熵 $E (Y ∣ X)$ 表示在已知 $X$ 的情况下， $Y$ 还有多少不确定性。如果 $X$ 能完全决定 $Y$ 的取值，那么条件熵 $E (Y ∣ X)$ 为 0，表示没有不确定性（即 $X$ 和 $Y$ 完全相关）。如果 $X$ 和 $Y$ 完全无关，则条件熵 $E (Y ∣ X)$ 等于 $Y$ 的熵 $E (Y)$ ，即条件熵没有帮助减少不确定性。
条件熵是信息增益的基础：当我们使用某个特征 $X$ 来划分数据时，条件熵表示在这个划分下，目标变量 $Y$ 的不确定性。如果某个划分显著减少了不确定性（即条件熵小），说明这个特征 $X$ 是一个很好的分类依据。

假设我们有一个简单的二元分类问题， $Y$ 表示分类标签， $X$ 表示一个特征。我们有以下数据集：

数据集包含 10 个样本，其中 6 个是类别 1，4 个是类别 2。
特征 $X$ 可以取 2 个值： $x_1$ 和 $x_2$ 。
- 当 $X = x_1$ 时，有 4 个样本，其中 3 个是类别 1，1 个是类别 2。
- 当 $X = x_2$ 时，有 6 个样本，其中 3 个是类别 1，3 个是类别 2。

条件熵的计算公式为：
$x_i) = - \sum_{j=1}^n p(Y = y_j | X = x_i) \log p(Y = y_j | X = x_i)$

现在我们将两个条件熵按边缘概率加权求和：
$E(Y|X) = p(X = x_1) E(Y|X = x_1) + p(X = x_2) E(Y|X = x_2)$

代入已知数值：
$\times 0.81125 + 0.6 \times 1 = 0.3245 + 0.6 = 0.9245$

条件熵 $E (Y ∣ X) = 0.9245$ 表示，在已知特征 $X$ 的情况下，目标变量 $Y$ 仍然具有约 0.9245 的不确定性。
条件熵帮助我们理解特征 $X$ 对目标变量 $Y$ 的解释能力。如果某个特征的条件熵很低，说明这个特征可以很好地帮助分类决策。如果条件熵很高，则说明该特征对目标变量的区分能力有限。