0. 熵(除本节外, l o g ∼ I n log\sim In log∼In)
0.1 信息熵
对于随机变量
X
X
X, 信息熵:
H
(
X
)
=
−
∑
i
=
1
N
p
i
l
o
g
(
p
i
)
,
P
(
X
=
x
i
)
=
p
i
.
H(X)=-\sum^N_{i=1} p_ilog(p_i), \space P(X=x_i)=p_i.
H(X)=−i=1∑Npilog(pi), P(X=xi)=pi.
0.2 联合熵
对于随机变量
X
,
Y
X,Y
X,Y, 联合熵
H
(
X
,
Y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)logp(x,y)
H(X,Y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)
0.3 条件熵
也即引入
Y
Y
Y后对
X
X
X不确定性的影响。
H
(
X
∣
Y
)
=
H
(
X
,
Y
)
−
H
(
Y
)
H(X|Y)=H(X,Y)-H(Y)
H(X∣Y)=H(X,Y)−H(Y)
0.4 互信息
随机变量相关度
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X;Y)=H(X)-H(X|Y)
I(X;Y)=H(X)−H(X∣Y)
0.3 交叉熵
对于随机变量
X
X
X, 分布
p
(
x
)
,
q
(
x
)
p(x), q(x)
p(x),q(x):
H
(
p
,
q
)
=
−
∑
x
∈
X
p
(
x
)
l
o
g
q
(
x
)
H(p,q)=-\sum_{x\in X}p(x)logq(x)
H(p,q)=−x∈X∑p(x)logq(x)
0.4 KL散度(Kullback-Leibler Divergence)
K L ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) = − ∑ x ∈ X p ( x ) l o g q ( x ) p ( x ) KL(p||q)=H(p,q)-H(p)\\ =-\sum_{x\in X}p(x)log\frac{q(x)}{p(x)} KL(p∣∣q)=H(p,q)−H(p)=−x∈X∑p(x)logp(x)q(x)
注意一般求熵底为2( l o g 2 log_2 log2),单位为bit;若 log ∼ I n \log\sim In log∼In, 单位为nat.