信息消除不确定性,不确定性由熵描述
随机变量的熵:
设
X
X
X为随机变量,其分布为
P
(
X
)
P(X)
P(X)
则
X
X
X的熵为:
H
(
X
)
=
−
∑
x
∈
X
P
(
x
)
log
2
P
(
x
)
H(X)=-\sum_{x\in X}P(x)\log_{2}{P(x)}
H(X)=−x∈X∑P(x)log2P(x)
随机变量的条件熵:
已知随机变量
X
,
Y
X,Y
X,Y,联合分布
P
(
X
,
Y
)
P(X,Y)
P(X,Y),条件分布
P
(
X
∣
Y
)
P(X|Y)
P(X∣Y)
则在
Y
Y
Y的条件下
X
X
X的条件熵为:
H
(
X
∣
Y
)
=
−
∑
x
∈
X
,
y
∈
Y
P
(
x
,
y
)
log
2
P
(
x
∣
y
)
H(X|Y)=-\sum_{x\in X,y\in Y}P(x,y)\log_{2}{P(x|y)}
H(X∣Y)=−x∈X,y∈Y∑P(x,y)log2P(x∣y)
可证明 H ( X ) ≥ H ( X ∣ Y ) H(X)≥H(X|Y) H(X)≥H(X∣Y)
互信息:
假定两个随机事件
X
X
X,
Y
Y
Y,他们的互信息定义为:
I
(
X
;
Y
)
=
∑
x
∈
X
,
y
∈
Y
P
(
x
,
y
)
log
2
P
(
x
,
y
)
P
(
x
)
P
(
y
)
I(X;Y)=\sum _{x\in X,y\in Y}P(x,y)\log_{2}\frac{P(x,y)}{P(x)P(y)}
I(X;Y)=x∈X,y∈Y∑P(x,y)log2P(x)P(y)P(x,y)
互信息描述了两个随机事件的相关性
实际上,互信息由
I
(
X
;
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
I(X;Y)=H(X)-H(X|Y)
I(X;Y)=H(X)−H(X∣Y)
导出。
库尔贝克——莱伯勒相对熵:
衡量两个取值为正数的函数的相似性
K
L
(
f
(
x
)
∣
∣
g
(
x
)
)
=
∑
x
∈
X
f
(
x
)
log
2
f
(
x
)
g
(
x
)
KL(f(x)||g(x))=\sum_{x\in X}f(x)\log_2\frac{f(x)}{g(x)}
KL(f(x)∣∣g(x))=x∈X∑f(x)log2g(x)f(x)
- 两个完全相同的函数,其相对熵为0
- 相对熵越大,两个函数差异越大
- 对于概率分布或者概率密度函数,如果取值均大于0,相对熵可以度量两个随机分布的差异性
詹森——香农相对熵:
注意到库尔贝克——莱伯勒相对熵是不对称的,进行对称平均对其修正,得到:
J
S
(
f
(
x
)
∣
∣
g
(
x
)
)
=
1
2
[
K
L
(
f
(
x
)
∣
∣
g
(
x
)
)
+
K
L
(
g
(
x
)
∣
∣
f
(
x
)
)
]
JS(f(x)||g(x))=\frac{1}{2}[KL(f(x)||g(x))+KL(g(x)||f(x))]
JS(f(x)∣∣g(x))=21[KL(f(x)∣∣g(x))+KL(g(x)∣∣f(x))]