总结一些在机器学习中常用的信息论的概念
- 信息熵
信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息,基于这种思想设计了信息熵(信息量):
对于事件 x i x_i xi的信息熵有如下定义:
对于随机变量 X X X计算其信息熵有:
我们可以用香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化,换言之,一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。 - KL散度(相对熵)
如果我们对于同一个随机变量 x 有两个单独的概率分布 P (x) 和 Q(x),我们可以使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异:
要注意的是KL散度是不对称的,即 D K L ( P ∣ ∣ Q ) D_{KL}(P||Q) DKL(P∣∣Q) 不等于 D K L ( Q ∣ ∣ P ) D_{KL}(Q||P) DKL(Q∣∣P) - 交叉熵
交叉熵和KL散度联系很紧密,H(P,Q)=H( P )+ D K L D_{KL} DKL(P||Q)
其定义为: