熵
熵用于描述一个随机变量的不确定性的大小,熵越大说明该随机变量的不确定性增加,包含的信息量越大(越是确定的事件所含有的信息量越小,必然事件的熵为0)。
H
(
X
)
=
−
∑
x
∈
X
p
(
x
)
l
o
g
p
(
x
)
(1)
H(X)=-\sum_{x\in X}p(x)\;log\;p(x)\tag{1}
H(X)=−x∈X∑p(x)logp(x)(1)
抛硬币,抛到某一面的熵: H ( X ) = − 1 2 l o g 1 2 − 1 2 l o g 1 2 = 1 H(X)=-\frac{1}{2}log\frac{1}{2}-\frac{1}{2}log\frac{1}{2}=1 H(X)=−21log21−21log21=1
掷骰子,掷到某一点的熵: H ( Y ) = − 1 6 l o g 1 6 − 1 6 l o g 6 6 . . . − 1 6 l o g 1 6 = l o g ( 6 ) H(Y)=-\frac{1}{6}log\frac{1}{6}-\frac{1}{6}log\frac{6}{6}...-\frac{1}{6}log\frac{1}{6}=log(6) H(Y)=−61log61−61log66...−61log61=log(6)
1 < l o g ( 6 ) 1<log(6) 1<log(6)表明抛硬币比掷骰子的不确定性小,含有的信息量更小;从计算机存储的意义上来讲,如果用One-hot编码方式,记录抛硬币的结果需要用到 1 b i t 1bit 1bit的编码长度,而记录掷骰子需要 l o g ( 6 ) ≈ 3 b i t log(6)≈3bit log(6)≈3bit的编码长度。熵是平均意义上对随机变量的最短编码长度。
对式(1)进行进一步的推导得到:
H
(
X
)
=
−
∑
x
∈
X
p
(
x
)
l
o
g
p
(
x
)
=
E
p
(
X
)
[
l
o
g
1
p
(
X
)
]
(2)
H(X)=-\sum_{x\in X}p(x)\;log\;p(x)=E_{p(X)}[log\frac{1}{p(X)}]\tag{2}
H(X)=−x∈X∑p(x)logp(x)=Ep(X)[logp(X)1](2)
熵也是随机变量X的求函数
l
o
g
1
p
(
X
)
log\frac{1}{p(X)}
logp(X)1的期望。
综上,熵有以下四个性质:
1. 熵描述一个随机变量的不确定性的大小;
2. 熵越大表明随机变量含有的信息量越大;
3. 熵是平均意义上对随机变量的最短编码长度;
4. 熵也是随机变量X的求函数
l
o
g
1
p
(
X
)
log\frac{1}{p(X)}
logp(X)1的期望。
互信息
熵表示一个随机变量的信息量的大小,互信息用来表示两个随机变量之间共同含有的信息,互信息描述了随机变量之间更高阶的相关程度,相关系数只描述随机变量之间的线性相关程度。
I
(
X
;
Y
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
p
(
x
)
p
(
y
)
(3)
I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}\tag{3}
I(X;Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)(3)
其中
p
(
x
)
,
p
(
y
)
p(x),p(y)
p(x),p(y)为边缘分布,
p
(
x
,
y
)
p(x, y)
p(x,y)为联合分布;
对式(3)进一步推导得:
I
(
X
;
Y
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
p
(
x
)
p
(
y
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
p
(
y
)
p
(
x
∣
y
)
p
(
x
)
p
(
y
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
p
(
x
∣
y
)
p
(
x
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
p
(
x
∣
y
)
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
p
(
x
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
y
)
p
(
x
∣
y
)
l
o
g
p
(
x
∣
y
)
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
p
(
x
)
=
∑
x
∈
X
p
(
x
∣
y
)
l
o
g
p
(
x
∣
y
)
(
∑
y
∈
Y
p
(
y
)
)
−
∑
x
∈
X
l
o
g
p
(
x
)
(
∑
y
∈
Y
p
(
x
,
y
)
)
=
∑
x
∈
X
p
(
x
∣
y
)
l
o
g
p
(
x
∣
y
)
−
∑
x
∈
X
l
o
g
p
(
x
)
p
(
x
)
=
H
(
X
)
−
H
(
X
∣
Y
)
(4)
I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(y)p(x|y)}{p(x)p(y)}=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x|y)}{p(x)}\\=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x|y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x)\\=\sum_{x\in X}\sum_{y\in Y}p(y)p(x|y)log\;p(x|y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x)\\=\sum_{x\in X}p(x|y)log\;p(x|y)(\sum_{y\in Y}p(y))-\sum_{x\in X}log\;p(x)(\sum_{y\in Y}p(x,y))\\=\sum_{x\in X}p(x|y)log\;p(x|y)-\sum_{x\in X}log\;p(x)p(x)=H(X)-H(X|Y)\tag{4}
I(X;Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(y)p(x∣y)=x∈X∑y∈Y∑p(x,y)logp(x)p(x∣y)=x∈X∑y∈Y∑p(x,y)logp(x∣y)−x∈X∑y∈Y∑p(x,y)logp(x)=x∈X∑y∈Y∑p(y)p(x∣y)logp(x∣y)−x∈X∑y∈Y∑p(x,y)logp(x)=x∈X∑p(x∣y)logp(x∣y)(y∈Y∑p(y))−x∈X∑logp(x)(y∈Y∑p(x,y))=x∈X∑p(x∣y)logp(x∣y)−x∈X∑logp(x)p(x)=H(X)−H(X∣Y)(4)
根据式(4)可知,
H
(
X
)
H(X)
H(X)表示
X
X
X含有的信息量,
H
(
X
∣
Y
)
H(X|Y)
H(X∣Y)表示知道事件Y后X含有的信息量。
H
(
X
)
−
H
(
X
∣
Y
)
H(X)-H(X|Y)
H(X)−H(X∣Y)表示知道Y事件后,X含有信息量的减少量。
综上,互信息拥有以下的性质:
1. 互信息表示两个随机变量共同拥有的信息;
2. 互信息刻画了两个随机变量之间的相关性;
3. 互信息
I
(
X
;
Y
)
I(X;Y)
I(X;Y)表示知道Y事件后,X含有信息量的减少量;
4. 两个独立变量之间的互信息为0;
相对熵(KL散度)
互信息用来描述两个随机变量之间共同拥有的信息,相对熵用来量化两个随机变量的分布函数之间的差异程度,相对熵用于衡量两个分布之间的距离,相对熵越大,表明两个分布距离越远,相对熵为0,表示两分布相同。
D
(
p
∣
∣
q
)
=
∑
x
∈
X
p
(
x
)
l
o
g
p
(
x
)
q
(
x
)
(5)
D(p||q)=\sum_{x\in X}p(x)log\frac{p(x)}{q(x)}\tag{5}
D(p∣∣q)=x∈X∑p(x)logq(x)p(x)(5)
其中
q
(
x
)
,
p
(
x
)
q(x),p(x)
q(x),p(x)表示两个概率密度函数。
互信息和相对熵之间的关系:
I
(
X
;
Y
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
p
(
x
)
p
(
y
)
=
D
(
p
(
x
,
y
)
∣
∣
p
(
x
)
p
(
y
)
)
(6)
I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log\frac{p(x, y)}{p(x)p(y)}=D(p(x,y)||p(x)p(y))\tag{6}
I(X;Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)=D(p(x,y)∣∣p(x)p(y))(6)
式(6)表明互信息描述联合分布
p
(
x
,
y
)
p(x,y)
p(x,y)与边缘分布之积
p
(
x
)
p
(
y
)
p(x)p(y)
p(x)p(y)的差异程度,如果差异程度为0,表示
p
(
x
,
y
)
=
p
(
x
)
p
(
y
)
p(x,y)=p(x)p(y)
p(x,y)=p(x)p(y),也就是两个随机变量相互独立。
联合熵
联合熵用来表示X和Y一起发生时,产生的信息量。
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x , y ) = E p ( x , y ) [ 1 p ( x , y ) ] (7) H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x,y)=E_{p(x,y)}[\frac{1}{p(x,y)}]\tag{7} H(X,Y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)=Ep(x,y)[p(x,y)1](7)
条件熵
条件熵 H ( X ∣ Y ) H(X|Y) H(X∣Y)用来表示Y已经发生的前提下,再发生X所产生的信息量。
H ( X ∣ Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g p ( x ∣ y ) = E p ( x , y ) [ 1 p ( x ∣ y ) ] (8) H(X|Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log\;p(x|y)=E_{p(x,y)}[\frac{1}{p(x|y)}]\tag{8} H(X∣Y)=−x∈X∑y∈Y∑p(x,y)logp(x∣y)=Ep(x,y)[p(x∣y)1](8)
联合熵和条件熵的关系
H
(
X
,
Y
)
=
H
(
Y
)
+
H
(
X
∣
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
(9)
H(X,Y)=H(Y)+H(X|Y)=H(X)+H(Y|X)\tag{9}
H(X,Y)=H(Y)+H(X∣Y)=H(X)+H(Y∣X)(9)
表示X和Y一起发生产生的信息量等于Y发生的信息量加上在Y发生的前提下再发生X新增的信息量,也等于X发生产生的信息量加上在X发生的前提下再发生Y产生的新增信息量。
互信息和联合熵的关系
I
(
X
;
Y
)
=
H
(
X
)
+
H
(
Y
)
−
H
(
X
,
Y
)
(10)
I(X;Y)=H(X)+H(Y)-H(X,Y)\tag{10}
I(X;Y)=H(X)+H(Y)−H(X,Y)(10)