机器学习中的熵（Entropy）是什么？

最新推荐文章于 2024-11-21 23:11:44 发布

libertea

最新推荐文章于 2024-11-21 23:11:44 发布

阅读量1.8k

点赞数 8

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/libertea/article/details/142830095

版权

在机器学习和信息理论中，熵（Entropy）是衡量不确定性和信息量的一个重要概念。熵最初由信息论的奠基人克劳德·香农（Claude Shannon）在1948年提出，用来衡量信息源的信息不确定性。在机器学习中，熵被用于许多场景，例如分类任务中的决策树构建，用来衡量一个属性对分类的贡献。下面详细介绍熵的定义和推导过程。

1. 熵的定义

熵衡量的是一个随机变量的不确定性。对于一个离散的概率分布 ( P ) ，其熵（Entropy）定义为：

$\sum_{i=1}^{n} P(x_i) \log P(x_i)$
其中：

( H(X) ) 表示随机变量 ( X ) 的熵；
( x_i ) 表示随机变量 ( X ) 可能取的第 ( i ) 个值；
( P(x_i) ) 是 ( X ) 取值 ( x_i ) 的概率；
对数 ( \log ) 通常以 2 为底（对应单位为“比特”），但也可以使用自然对数（对应单位为“纳特”）。

熵反映的是从信息源中获得的信息的平均量。假如某个事件的概率越低（即它越不确定），一旦发生，就提供了更多的信息，因此熵越大。

2. 熵的推导

熵的推导可以从几个基本信息论概念入手：

a. 自信息量（Self-Information）

自信息量是衡量某个特定事件发生时，它为我们带来的信息量。对于某个事件 ( x_i ) 发生，它的自信息量定义为：

$I(x_i) = -\log P(x_i)$

当事件发生的概率 $P(x_i)$ 越小，它的不确定性越高，因此提供的“信息量”越大。
当 $P(x_i)$ 为 1 时，自信息量为 0，因为这种事件是确定的，不带来额外信息。
加上log，可以把非线性的概率转换为线性空间。

b. 熵是期望自信息量

熵的定义可以被理解为所有可能事件自信息量的期望值。对于一个离散随机变量 ( X )，它的熵表示为每个可能事件自信息量的期望：

$\mathbb{E}[I(X)] = \sum_{i=1}^{n} P(x_i) I(x_i) = - \sum_{i=1}^{n} P(x_i) \log P(x_i)$

因此，熵是每个可能事件的概率与其自信息量乘积的加权和，反映了整个系统的平均不确定性。

3. 熵的性质

熵有以下一些重要性质：

非负性：熵总是大于等于 0。对于确定事件（即 ( P(x_i) = 1 )），熵为 0；对于不确定性较大的分布，熵更高。
均匀分布的熵最大：对于均匀分布，熵最大。例如，对于一个有 ( n ) 种可能事件且每个事件的概率都相等的系统，熵为：

$\log n$

这是因为均匀分布下不确定性最大，每个事件发生的概率一样，不提供更多信息。
熵和概率的关系：熵的值取决于概率分布。若一个系统中所有事件的概率都接近 1，熵较小；若系统的事件概率分布接近均匀，熵较大。

4. 熵在机器学习中的应用

总结

熵作为信息论中的核心概念，衡量了系统的不确定性。通过从自信息量推导出的熵公式，我们能够量化一个系统中信息的平均量。在机器学习中，熵广泛用于决策树构造和其他分类任务中，以帮助衡量数据集的纯度或不确定性。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。