熵(Entropy)

1. 什么是熵?

熵(Entropy)最早起源于物理学中的热力学,后来由克劳德·香农(Claude Shannon)引入信息论,成为描述系统不确定性或随机性的量度。直观来说,熵衡量的是一个系统的“混乱程度”或“信息含量”。在不同领域,熵有不同的具体含义:

  • 热力学:熵表示系统的无序程度,例如一个孤立系统中分子分布的混乱程度。
  • 信息论:熵衡量随机变量的不确定性或传递信息所需的平均信息量。
  • 机器学习:熵用于量化数据集的纯度(如决策树中的信息增益)或模型的不确定性(如生成模型中的概率分布)。

在人工智能领域,我们主要关注信息论中的熵,因为它直接与数据、模型和算法相关。


2. 信息论中的熵

信息论中的熵由香农于1948年提出,用于衡量一个随机变量的不确定性。假设有一个离散随机变量 X X X,其可能取值为 { x 1 , x 2 , … , x n } \{x_1, x_2, \dots, x_n\} { x1,x2,,xn},每个取值的概率为 P ( X = x i ) = p i P(X = x_i) = p_i P(X=xi)=pi。熵 H ( X ) H(X) H(X) 定义为:

H ( X ) = − ∑ i = 1 n p i log ⁡ 2 p i H(X) = - \sum_{i=1}^n p_i \log_2 p_i H(X)=i=1npilog2pi

2.1 公式解释

  • 负号:因为 p i ∈ [ 0 , 1 ] p_i \in [0, 1] pi[0,1],所以 log ⁡ 2 p i ≤ 0 \log_2 p_i \leq 0 log2pi0,负号确保熵是非负值。
  • 对数:通常使用以2为底的对数(单位为比特,bit),表示信息量的度量。也可以用自然对数(单位为纳特,nat)。
  • 概率 p i p_i pi:表示事件 x i x_i xi 发生的可能性。
  • 求和:对所有可能事件的“信息量”加权平均。

熵的单位是比特(当使用 log ⁡ 2 \log_2 log2 时),表示编码一个随机变量的平均信息量。

2.2 直观理解

熵可以看作是“预测一个随机变量结果所需的平均信息量”:

  • 如果一个事件确定发生(例如, P ( X = x 1 ) = 1 , P ( X = x i ) = 0  for  i ≠ 1 P(X = x_1) = 1, P(X = x_i) = 0 \text{ for } i \neq 1 P(X=x1)=1,P(X=xi)=0 for i=1),熵为0,因为没有不确定性。
  • 如果所有事件等概率发生(例如,抛公平硬币, P ( 正面 ) = P ( 反面 ) = 0.5 P(\text{正面}) = P(\text{反面}) = 0.5 P(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱看烟花的码农

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值