熵是随机变量的不确定性的度量。设X
X
是一个离散的随机变量,其取值空间为X
X
,概率密度函数p(x)=P(X=x),x∈X
p
(
x
)
=
P
(
X
=
x
)
,
x
∈
X
,则离散型随机变量X
X
的信息熵H(X)
H
(
X
)
为,
H(X)=−∑x∈Xp(x)logp(x),对数log所用的底一般为2,因此其单位为比特(bit)
H
(
X
)
=
−
∑
x
∈
X
p
(
x
)
log
p
(
x
)
,
对
数
log
所
用
的
底
一
般
为
2
,
因
此
其
单
位
为
比
特
(
b
i
t
)
我们知道,如果X∼p(x)
X
∼
p
(
x
)
,则随机变量Y=g(X)
Y
=
g
(
X
)
的数学期望EY
E
Y
为,
EY=Epg(X)=∑x∈Xg(x)p(x),其中Epg(X)表示函数g(X)关于概率分布p(x)的期望
E
Y
=
E
p
g
(
X
)
=
∑
x
∈
X
g
(
x
)
p
(
x
)
,
其
中
E
p
g
(
X
)
表
示
函
数
g
(
X
)
关
于
概
率
分
布
p
(
x
)
的
期
望
特别地,当g(X)=−logp(X)
g
(
X
)
=
−
log
p
(
X
)
时,因此随机变量X
X
的信息熵可以解释为H(X)=Elog1p(X)
H
(
X
)
=
E
log
1
p
(
X
)
另外我们知道,一条信息的信息量与其不确定性(概率)有直接的关系,由此我们可以得到,随机变量X=x
X
=
x
的信息量为log1p(X=x)
log
1
p
(
X
=
x
)
,所以随机变量X
X
的信息熵H(X)
H
(
X
)
还可以解释为随机变量X
X
的信息量的期望(平均信息量)
联合熵(Joint entropy)与条件熵(Conditional entropy)
如果随机变量(X,Y)∼p(x,y)
(
X
,
Y
)
∼
p
(
x
,
y
)
,那么其联合熵H(X,Y)
H
(
X
,
Y
)
为,
H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)=−Elogp(X,Y)
H
(
X
,
Y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
=
−
E
log
p
(
X
,
Y
)
一样地,其条件熵H(Y|X)
H
(
Y
|
X
)
为,
H(Y|X)=∑x∈Xp(x)H(Y|X=x)=−∑x∈Xp(x)∑y∈Yp(y|x)logp(y|x)=−∑x∈X∑y∈Yp(x,y)logp(y|x)=−Elogp(Y|X)
H
(
Y
|
X
)
=
∑
x
∈
X
p
(
x
)
H
(
Y
|
X
=
x
)
=
−
∑
x
∈
X
p
(
x
)
∑
y
∈
Y
p
(
y
|
x
)
log
p
(
y
|
x
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
y
|
x
)
=
−
E
log
p
(
Y
|
X
)
另外,H(X,Y)=H(X)+H(Y|X)
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
|
X
)
,证明如下,
H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)=−∑x∈X∑y∈Yp(x,y)logp(x)p(y|x)=−∑x∈X∑y∈Yp(x,y)logp(x)−∑x∈X∑y∈Yp(x,y)logp(y|x)=−∑x∈Xp(x)logp(x)+H(Y|X)=H(X)+H(Y|X)
H
(
X
,
Y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
x
)
p
(
y
|
x
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
x
)
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
y
|
x
)
=
−
∑
x
∈
X
p
(
x
)
log
p
(
x
)
+
H
(
Y
|
X
)
=
H
(
X
)
+
H
(
Y
|
X
)
其中,
∑y∈Yp(x,y)=p(x)为离散型随机变量的联合分布变为边缘分布
∑
y
∈
Y
p
(
x
,
y
)
=
p
(
x
)
为
离
散
型
随
机
变
量
的
联
合
分
布
变
为
边
缘
分
布
I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)=D(p(x,y)||p(x)p(y))即互信息I(X;Y)为联合分布p(x,y)和乘积分布p(x)p(y)之间的相对熵
I
(
X
;
Y
)
=
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
=
D
(
p
(
x
,
y
)
|
|
p
(
x
)
p
(
y
)
)
即
互
信
息
I
(
X
;
Y
)
为
联
合
分
布
p
(
x
,
y
)
和
乘
积
分
布
p
(
x
)
p
(
y
)
之
间
的
相
对
熵
另外,熵与互信息的关系,
I(X;Y)=H(Y)−H(Y|X)=H(X)−H(X|Y)
I
(
X
;
Y
)
=
H
(
Y
)
−
H
(
Y
|
X
)
=
H
(
X
)
−
H
(
X
|
Y
)
,证明如下,
I(X;Y)=∑x∈X,y∈Yp(x,y)logp(x,y)p(x)p(y)=∑x∈X,y∈Yp(x,y)logp(x|y)p(x)=−∑x∈X,y∈Yp(x,y)logp(x)−(−∑x∈X,y∈Yp(x,y)logp(x|y))=H(X)−H(X|Y)
I
(
X
;
Y
)
=
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
=
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
p
(
x
|
y
)
p
(
x
)
=
−
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
p
(
x
)
−
(
−
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
p
(
x
|
y
)
)
=
H
(
X
)
−
H
(
X
|
Y
)