1. 什么是熵?
熵(Entropy)最早起源于物理学中的热力学,后来由克劳德·香农(Claude Shannon)引入信息论,成为描述系统不确定性或随机性的量度。直观来说,熵衡量的是一个系统的“混乱程度”或“信息含量”。在不同领域,熵有不同的具体含义:
- 热力学:熵表示系统的无序程度,例如一个孤立系统中分子分布的混乱程度。
- 信息论:熵衡量随机变量的不确定性或传递信息所需的平均信息量。
- 机器学习:熵用于量化数据集的纯度(如决策树中的信息增益)或模型的不确定性(如生成模型中的概率分布)。
在人工智能领域,我们主要关注信息论中的熵,因为它直接与数据、模型和算法相关。
2. 信息论中的熵
信息论中的熵由香农于1948年提出,用于衡量一个随机变量的不确定性。假设有一个离散随机变量 X X X,其可能取值为 { x 1 , x 2 , … , x n } \{x_1, x_2, \dots, x_n\} { x1,x2,…,xn},每个取值的概率为 P ( X = x i ) = p i P(X = x_i) = p_i P(X=xi)=pi。熵 H ( X ) H(X) H(X) 定义为:
H ( X ) = − ∑ i = 1 n p i log 2 p i H(X) = - \sum_{i=1}^n p_i \log_2 p_i H(X)=−∑i=1npilog2pi
2.1 公式解释
- 负号:因为 p i ∈ [ 0 , 1 ] p_i \in [0, 1] pi∈[0,1],所以 log 2 p i ≤ 0 \log_2 p_i \leq 0 log2pi≤0,负号确保熵是非负值。
- 对数:通常使用以2为底的对数(单位为比特,bit),表示信息量的度量。也可以用自然对数(单位为纳特,nat)。
- 概率 p i p_i pi:表示事件 x i x_i xi 发生的可能性。
- 求和:对所有可能事件的“信息量”加权平均。
熵的单位是比特(当使用 log 2 \log_2 log2 时),表示编码一个随机变量的平均信息量。
2.2 直观理解
熵可以看作是“预测一个随机变量结果所需的平均信息量”:
- 如果一个事件确定发生(例如, P ( X = x 1 ) = 1 , P ( X = x i ) = 0 for i ≠ 1 P(X = x_1) = 1, P(X = x_i) = 0 \text{ for } i \neq 1 P(X=x1)=1,P(X=xi)=0 for i=1),熵为0,因为没有不确定性。
- 如果所有事件等概率发生(例如,抛公平硬币, P ( 正面 ) = P ( 反面 ) = 0.5 P(\text{正面}) = P(\text{反面}) = 0.5 P(