H(X)=−∑i=1np(xi)logap(xi)=∑i=1np(xi)loga1p(xi)(2)
(2)
H
(
X
)
=
−
∑
i
=
1
n
p
(
x
i
)
l
o
g
a
p
(
x
i
)
=
∑
i
=
1
n
p
(
x
i
)
l
o
g
a
1
p
(
x
i
)
其中
loga1p(xi)
l
o
g
a
1
p
(
x
i
)
表示信息量,
∑ni=1p(xi)loga1p(xi)
∑
i
=
1
n
p
(
x
i
)
l
o
g
a
1
p
(
x
i
)
则表示信息量的期望,反应不确定性。
定义熵时,约定确定事件的熵为0,如下:
limp−>0+plogap=0(3)
(3)
lim
p
−
>
0
+
p
l
o
g
a
p
=
0
概率和熵具有如下的性质:
0≤p≤1and∑p=1(4)
(4)
0
≤
p
≤
1
a
n
d
∑
p
=
1
∃H(X)H(X)>1(5)
(5)
∃
H
(
X
)
H
(
X
)
>
1
联合熵
由上面的Venn图可知,联合熵可以表示为两个事件的熵的并集:
H(X,Y)==−∑i=1n∑j=1np(xi,yj)log2p(xi,yj)∑i=1n∑j=1np(xi,yj)log21p(xi,yj)(6)(7)
(6)
H
(
X
,
Y
)
=
−
∑
i
=
1
n
∑
j
=
1
n
p
(
x
i
,
y
j
)
l
o
g
2
p
(
x
i
,
y
j
)
(7)
=
∑
i
=
1
n
∑
j
=
1
n
p
(
x
i
,
y
j
)
l
o
g
2
1
p
(
x
i
,
y
j
)
可以得到如下性质:
max[H(X),H(Y)]≤H(X,Y)≤H(X)+H(Y)(8)
(8)
m
a
x
[
H
(
X
)
,
H
(
Y
)
]
≤
H
(
X
,
Y
)
≤
H
(
X
)
+
H
(
Y
)
条件熵
通过上述Venn图可知,条件熵实际上是联合熵与熵的差集,也可表示为熵与互信息的差集,具体如下:
H(X|Y)==H(X,Y)−H(Y)H(X)−I(X,Y)(9)(10)
(9)
H
(
X
|
Y
)
=
H
(
X
,
Y
)
−
H
(
Y
)
(10)
=
H
(
X
)
−
I
(
X
,
Y
)
具体的推到过程如下:
H(Y|X)===∑i=1np(xi)H(Y|X=xi)−∑i=1n∑j=1np(xi)p(yi|xj)log2p(yi|xj)∑i=1n∑j=1np(xi,yj)log2p(xi)p(xi,yj)(11)(12)(13)
(11)
H
(
Y
|
X
)
=
∑
i
=
1
n
p
(
x
i
)
H
(
Y
|
X
=
x
i
)
(12)
=
−
∑
i
=
1
n
∑
j
=
1
n
p
(
x
i
)
p
(
y
i
|
x
j
)
l
o
g
2
p
(
y
i
|
x
j
)
(13)
=
∑
i
=
1
n
∑
j
=
1
n
p
(
x
i
,
y
j
)
l
o
g
2
p
(
x
i
)
p
(
x
i
,
y
j
)
I(X,Y)=−∑i=1n∑j=1np(xi,yj)log2p(xi,yj)p(xi)p(yj)(14)
(14)
I
(
X
,
Y
)
=
−
∑
i
=
1
n
∑
j
=
1
n
p
(
x
i
,
y
j
)
l
o
g
2
p
(
x
i
,
y
j
)
p
(
x
i
)
p
(
y
j
)
互信息与相关性
ρ
ρ
相关,
ρ
ρ
用来描述线性相关性,互信息用来描述非线性相关性,其中:
ρ=cov(x,y)var(x)‾‾‾‾‾‾√var(y)‾‾‾‾‾‾√(15)
(15)
ρ
=
c
o
v
(
x
,
y
)
v
a
r
(
x
)
v
a
r
(
y
)
相对熵(KL散度)
相对熵用来描述两个分布之间的差异,在GAN上获得了广泛应用。
KL(p||q)=∑i=1np(xi)log2p(xi)q(xi)(16)
(16)
K
L
(
p
|
|
q
)
=
∑
i
=
1
n
p
(
x
i
)
l
o
g
2
p
(
x
i
)
q
(
x
i
)
其中,p,q表示两个分布,易知:
KL(p||q)≠KL(q||p)(17)
(17)
K
L
(
p
|
|
q
)
≠
K
L
(
q
|
|
p
)
KL散度越大,两个分布间的差异越明显,并且:
KL(p||q)≥0(18)
(18)
K
L
(
p
|
|
q
)
≥
0
对于式(18),可以通过如下证明:
交叉熵
交叉熵常用在深度学习中目标函数优化。
CH(p,q)====−∑i=1np(xi)log2q(xi)−∑i=1npilog2pi+∑i=1npilog2pi−∑i=1npilog2qiH(p)+∑i=1npilog2piqiH(p)+KL(p||q)(19)(20)(21)(22)
(19)
C
H
(
p
,
q
)
=
−
∑
i
=
1
n
p
(
x
i
)
l
o
g
2
q
(
x
i
)
(20)
=
−
∑
i
=
1
n
p
i
l
o
g
2
p
i
+
∑
i
=
1
n
p
i
l
o
g
2
p
i
−
∑
i
=
1
n
p
i
l
o
g
2
q
i
(21)
=
H
(
p
)
+
∑
i
=
1
n
p
i
l
o
g
2
p
i
q
i
(22)
=
H
(
p
)
+
K
L
(
p
|
|
q
)