这恰好符合我们的认识。信息熵:信息量的期望。比如上例,设X为赛马编号,则X的信息熵为:
H
(
X
)
=
∑
i
=
1
n
p
i
×
l
o
g
2
(
1
p
i
)
H(X)=\sum _{i=1} ^ n p_i \times log_2 ({1 \over p_i})
H(X)=i=1∑npi×log2(pi1)
总之:
信息量:从未知到已知所需信息的含量
信息熵:信息量的期望
最短的平均编码长度 = 信源的不确定程度(等价于信息熵,等价于用二进制符号来表达信息所需二进制符号的平均长度) / 传输(或者叫符号)的表达能力(如2进制符号0,1 3进制符号0,1,2) 。
KL散度:==相对熵
D K L ( p ∣ ∣ q ) = ∑ i = 1 n p ( x i ) l o g ( p ( x i ) ) − ∑ i = 1 n p ( x i ) l o g ( q ( x i ) ) D_{KL}(p||q)=\sum _{i=1} ^n p(x_i)log(p(x_i))-\sum _{i=1} ^n p(x_i)log(q(x_i)) DKL(p∣∣q)=i=1∑np(xi)log(p(xi))−i=1∑np(xi)log(q(xi))
交叉熵:
H ( p , q ) = − ∑ i = 1 n p ( x i ) l o g ( q ( x i ) ) H(p,q)=-\sum _{i=1} ^ n p(x_i)log(q(x_i)) H(p,q)=−i=1∑np(xi)log(q(xi))