信息熵和散度
信息量
首先给出香农信息量的概念:
信息量需要具有三个性质
- 事件出现的概率越大,所包含的信息量越小
- 可加性
- 不能为负
满足这三个性质的唯一函数
h
(
x
)
=
−
l
o
g
2
p
x
h(x)=-log_2p_x
h(x)=−log2px
p
x
p_x
px是事件
x
x
x发生的概率
熵
熵是所有事件发生的信息量的期望
H
(
p
)
=
−
∑
i
p
i
∗
l
o
g
2
p
i
H(p)=-\sum_ip_i*log_2p_i
H(p)=−i∑pi∗log2pi
熵也可以看作是最小平均编码长度。参考熵和编码长度
交叉熵
按照非真实的分布
q
q
q来计算事件的信息量,或者说给信息编码。
则
h
(
x
)
=
−
l
o
g
2
q
x
h(x)=-log_2q_x
h(x)=−log2qx
那么计算出来的熵就是
H
(
p
,
q
)
=
−
∑
i
p
i
∗
l
o
g
2
q
i
H(p,q)=-\sum_ip_i*log_2q_i
H(p,q)=−i∑pi∗log2qi
注意要用真实的分布来计算期望,这代表我们用
q
q
q分布来编码能得到的真实的最小平均编码长度。
相对熵
又称为KL散度
用交叉熵减去真实的熵,得到相对熵。表示用非真实的分布
q
q
q给信息编码会比用真实的分布
p
p
p编码多的编码长度。
D
(
p
∣
∣
q
)
=
H
(
p
,
q
)
−
H
(
p
)
=
∑
i
p
i
∗
l
o
g
2
p
i
q
i
D(p||q) = H(p,q) - H(p)=\sum_i{p_i}*log_2\frac{p_i}{q_i}
D(p∣∣q)=H(p,q)−H(p)=i∑pi∗log2qipi
根据吉布斯不等式可知
H
(
p
,
q
)
≥
H
(
p
)
H(p,q)\ge H(p)
H(p,q)≥H(p),当
q
q
q和
p
p
p相等时取等号。
相对熵衡量了
q
q
q和
p
p
p两个概率分布的差异性。
##参考
信息熵是什么? - 忆臻的回答 - 知乎
如何通俗的解释交叉熵与相对熵? - Noriko Oshima的回答 - 知乎