【信息论基础】- 信息量、香农熵、交叉熵与 KL 散度详解


在信息论和机器学习领域,我们经常听到几个重要的概念:信息量香农熵交叉熵KL 散度。这些概念帮助我们理解信息的不确定性、衡量概率分布之间的差异、并在深度学习中起到至关重要的作用。今天,我将带大家深入理解这些概念的定义和它们之间的关系。


一、信息量(Information Content)

概念

信息量衡量某个事件发生时所携带的信息多少。直观来说,越罕见的事件,携带的信息量越大。例如,如果你扔一枚硬币,正面朝上的概率是 50%,这是一个很常见的事件,因此携带的信息量较少。如果你中了彩票,这个事件极其罕见,因此携带的信息量非常大。

公式

对于事件 x x x,它的信息量 I ( x ) I(x) I(x) 定义为:

I ( x ) = log ⁡ 1 p ( x ) = − log ⁡ p ( x ) I(x) = \log\frac{1}{p(x)} =-\log p(x) I(x)=logp(x)1=logp(x)

其中:

  • p ( x ) p(x) p(x):事件 x x x 发生的概率。

  • log ⁡ \log log:通常取以 2 为底(信息量单位为比特)或以 e e e 为底(单位为纳特)。

示例:

假设扔一枚硬币得到正面的概率是 p = 0.5 p = 0.5 p=0.5,那么正面事件的信息量为:

I ( 正面 ) = − log ⁡ 2 ( 0.5 ) = 1  比特 I(\text{正面}) = -\log_2 (0.5) = 1 \text{ 比特} I(正面)=log2(0.5)=1 比特


二、香农熵(Shannon Entropy)

概念

香农熵衡量一个随机变量的平均不确定性,也就是我们需要多少信息量才能确定随机变量的结果。熵越大,表示结果的不确定性越大。如果所有的事件都等概率出现,那么不确定性最大,熵也最大。

公式

对于离散随机变量 X X X,其熵 H ( X ) H(X) H(X) 定义为:

H ( X ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) H(X) = -\sum_{x \in X} p(x) \log p(x) H(X)=xXp(x)logp(x)
PS:若是连续型随机变量则使用积分

其中:

  • p ( x ) p(x) p(x):随机变量 X X X 取值 x x x 的概率。

示例:

假设随机变量 X X X 代表投掷一枚公平的六面骰子,那么熵为:

H ( X ) = − ∑ i = 1 6 1 6 log ⁡ 2 ( 1 6 ) = log ⁡ 2 6 ≈ 2.58  比特 H(X) = -\sum_{i=1}^6 \frac{1}{6} \log_2 \left(\frac{1}{6}\right) = \log_2 6 \approx 2.58 \text{ 比特} H(X)=i=1661log2(61)=log262.58 比特


三、交叉熵(Cross Entropy)

概念

交叉熵用于衡量两个概率分布之间的差异。具体来说,它衡量用预测分布 q ( x ) q(x) q(x) 来编码真实分布 p ( x ) p(x) p(x) 的平均代价。如果两个分布完全相等,交叉熵等于香农熵;如果分布不一致,交叉熵会更大。

公式

交叉熵 H ( p , q ) H(p, q) H(p,q) 定义为:

H ( p , q ) = − ∑ x ∈ X p ( x ) log ⁡ q ( x ) H(p, q) = -\sum_{x \in X} p(x) \log q(x) H(p,q)=xXp(x)logq(x)

应用场景:

在机器学习中,交叉熵常用于分类任务的损失函数,特别是在神经网络的训练过程中。它告诉我们预测分布 q ( x ) q(x) q(x)(模型输出)与真实分布 p ( x ) p(x) p(x)(真实标签)之间的差异。


四、KL 散度(Kullback-Leibler Divergence, KL Divergence)

概念

KL 散度(相对熵)衡量两个概率分布之间的差异。它反映了当我们使用分布 q ( x ) q(x) q(x) 近似真实分布 p ( x ) p(x) p(x) 时,所“丢失”的信息量。KL 散度越小,表示两个分布越接近

公式

KL 散度 D K L ( p ∥ q ) D_{KL}(p \parallel q) DKL(pq) 定义为:

D KL ( P ∣ ∣ Q ) = H ( P , Q ) − H ( P ) = ∑ x ∈ X p ( x ) log ⁡ p ( x ) q ( x ) D_{\text{KL}}(P || Q) = H(P, Q) - H(P) = \sum_{x \in X} p(x) \log \frac{p(x)}{q(x)} DKL(P∣∣Q)=H(P,Q)H(P)=xXp(x)logq(x)p(x)

性质:

  1. 非负性 D K L ( p ∥ q ) ≥ 0 D_{KL}(p \parallel q) \geq 0 DKL(pq)0,当且仅当 p ( x ) = q ( x ) p(x) = q(x) p(x)=q(x) 时取等号。

  2. 非对称性 D K L ( p ∥ q ) ≠ D K L ( q ∥ p ) D_{KL}(p \parallel q) \neq D_{KL}(q \parallel p) DKL(pq)=DKL(qp)

与交叉熵的关系:

KL 散度和交叉熵之间有以下关系:

D K L ( p ∥ q ) = H ( p , q ) − H ( p ) D_{KL}(p \parallel q) = H(p, q) - H(p) DKL(pq)=H(p,q)H(p)

即 KL 散度等于交叉熵减去真实分布的熵。


总结

让我们回顾一下这些概念之间的关系:

  • 信息量:衡量单个事件的罕见程度。

  • 香农熵:衡量整个随机变量的不确定性。

  • 交叉熵:衡量用预测分布 q ( x ) q(x) q(x) 编码真实分布 p ( x ) p(x) p(x) 的代价。

  • KL 散度:衡量两个概率分布之间的差异,是交叉熵与熵的差。

这些概念在信息论和机器学习中具有广泛的应用,如数据压缩、自然语言处理和深度学习中的模型优化。理解它们,可以帮助我们更好地理解和改进各种算法和模型。

希望这篇博客对你有所帮助!如果你有任何疑问或想进一步探讨,欢迎在评论区留言!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值