信息量(Amount of Information)
I
(
x
)
=
l
o
g
2
(
1
p
(
x
)
)
=
−
l
o
g
2
(
p
(
x
)
)
I(x) = log_2(\frac{1}{p(x)}) = -log_2(p(x))
I(x)=log2(p(x)1)=−log2(p(x))
事件发生的可能性越小,信息量越大;
独立事件的信息量是可以相加的。
香农熵(Shannon Entropy)
一个概率分布信息量的数学期望
H
(
p
)
=
∑
p
i
I
i
p
=
∑
p
i
l
o
g
2
(
1
p
i
)
=
−
∑
p
i
l
o
g
2
(
p
i
)
H(p) = \sum p_i I_i^p = \sum p_i log_2(\frac{1}{p_i}) = - \sum p_i log_2(p_i)
H(p)=∑piIip=∑pilog2(pi1)=−∑pilog2(pi)
概率分布越集中,香农熵越小
交叉熵(Cross Entropy)
H
(
p
,
q
)
=
∑
p
i
I
i
q
=
−
∑
p
i
l
o
g
2
(
q
i
)
H(p, q) = \sum p_i I_i^q = - \sum p_i log_2(q_i)
H(p,q)=∑piIiq=−∑pilog2(qi)
可以理解为给定一个估计的概率分布q,计算在真实的概率分布p下,估计的概率分布信息量的数学期望。
KL散度(Kullback-Leibler Divergence)
描述两个概率分布的区别的度量
D
(
p
∣
∣
q
)
=
H
(
p
,
q
)
−
H
(
p
)
=
∑
p
i
I
i
q
−
∑
p
i
I
i
p
=
∑
p
i
l
o
g
2
(
p
i
)
−
∑
p
i
l
o
g
2
(
q
i
)
=
∑
p
i
l
o
g
2
(
p
i
q
i
)
D(p||q) = H(p, q) - H(p) = \sum p_i I_i^q - \sum p_i I_i^p = \sum p_i log_2(p_i) - \sum p_i log_2(q_i) = \sum p_i log_2(\frac{p_i}{q_i})
D(p∣∣q)=H(p,q)−H(p)=∑piIiq−∑piIip=∑pilog2(pi)−∑pilog2(qi)=∑pilog2(qipi)
D
(
p
∣
∣
q
)
≥
0
D(p||q) \ge 0
D(p∣∣q)≥0 两个概率分布相同时取等
D
(
p
∣
∣
q
)
≠
D
(
q
∣
∣
p
)
D(p||q) \neq D(q||p)
D(p∣∣q)=D(q∣∣p)
∇
θ
D
(
p
∣
∣
q
θ
)
=
∇
θ
H
(
p
,
q
θ
)
−
∇
θ
H
(
p
)
=
∇
θ
H
(
p
,
q
θ
)
\nabla_\theta D(p||q_\theta) = \nabla_\theta H(p, q_\theta) - \nabla_\theta H(p) = \nabla_\theta H(p, q_\theta)
∇θD(p∣∣qθ)=∇θH(p,qθ)−∇θH(p)=∇θH(p,qθ)