信息熵公式的详细解释和计算示例

彬彬侠

已于 2024-10-01 18:47:37 修改

阅读量5.1k

点赞数 23

分类专栏：机器学习(笔记) 文章标签：机器学习分类决策树人工智能

于 2024-09-30 17:37:47 首次发布

本文链接：https://blog.csdn.net/u013172930/article/details/142661355

版权

360 篇文章

订阅专栏

信息熵的定义公式：
$\sum_{k=1}^Y p_k \log p_k$

$E (D)$ ：这是数据集 $D$ 的信息熵（Entropy）。信息熵是用来衡量数据的不确定性的指标，特别是当数据需要划分成不同类别时，信息熵表示了每个类别数据分布的均匀性。如果一个分类中所有数据都属于同一类，信息熵会很小；反之，若分类中数据分布较为均匀，则信息熵会较大。
$p_k$ ：这是数据集中属于第 $k$ 类的样本所占的概率。假设数据集中总共有 $Y$ 个类别，每个类别对应的概率为 $p_k$ ，且 $\sum_{k=1}^Y p_k = 1$ 。比如在一个分类任务中，如果有 3 个类别，分别占比为 $0.5, 0.3, 0.2$ ，那么这就是这些类别对应的 $p_k$ 值。
$log p_k$ ：这是类别 $k$ 的对数概率。对数函数用于计算信息熵中的每个类别的权重。因为信息熵是衡量不确定性的，取对数是为了放大较小概率类别的影响，从而更好地反映不确定性。
$\sum_{k=1}^Y$ ：这个符号表示对所有类别进行求和。信息熵需要考虑数据集中每个类别的概率分布，所以我们将所有类别的贡献加起来。
负号：前面的负号是因为 $log p_k$ 通常是负数，而信息熵是一个非负数，因此我们加上负号使其为正数。

信息熵的核心作用 是衡量数据的混乱程度。在决策树算法中，信息熵通常用于衡量某个特征的分割效果。如果某个特征的划分能够使数据更加纯（即熵更低），那么这个特征就是一个好的划分标准。
熵的值越大，表示数据越混乱、分布越均匀，类别之间没有明显的区别。
熵的值越小，表示数据分布得越纯，分类效果越好。