预备基础概念
- X : 随机变量
- x : 随机变量X的具体取值
- P(X) : 随机变量X的概率分布
- P(X,Y) : 随机变量X,Y的联合概率分布
- P(Y|X) : 已知随机变量X的情况下,随机变量Y的条件概率分布
- P(X=x) => p(x) : 随机变量取某个值的概率
- P(X=x,Y=y) => p(x,y) : 联合概率
- P(X=x|Y=y) =>p(y|x) : 条件概率 、
- 且有 p(x,y) = p(x)*p(y|x)
信息量
事件的不确定性
事件发生的概率越大,信息量越小,事件发生的概率越小,信息量越小;
正好符合-logP 函数
熵
简单来讲,就是指所有信息量的期望
如果一个随机变量X的可能取值为X = {
x
1
,
x
2
,
.
.
.
,
x
k
x_{1},x_{2},... ,x_{k}
x1,x2,...,xk}
其概率分布为P(X=
x
i
x_{i}
xi) =
p
i
p_{i}
pi (i = 1,2,…,n)
则随机变量的熵定义为
H
(
X
)
=
−
∑
x
p
(
x
)
l
o
g
p
(
x
)
H(X) = -\sum_{x}p(x)logp(x)
H(X)=−x∑p(x)logp(x)
等价于
H
(
X
)
=
∑
x
p
(
x
)
l
o
g
1
p
(
x
)
H(X) = \sum_{x}p(x)log\frac{1}{p(x)}
H(X)=x∑p(x)logp(x)1
联合熵
两个随机变量X,Y的联合分布
H
(
X
,
Y
)
=
∑
x
,
y
p
(
x
,
y
)
l
o
g
1
p
(
x
,
y
)
H(X,Y) = \sum_{x,y}p(x,y)log\frac{1}{p(x,y)}
H(X,Y)=x,y∑p(x,y)logp(x,y)1
条件熵
在随机变量X发生的前提下,随机变量Y发生所带来的熵定义为Y的条件熵
主要用来衡量在已知随机变量X的条件下随机变量Y的不确定性
H
(
Y
∣
X
)
=
H
(
X
,
Y
)
=
H
(
X
)
H(Y|X) = H(X,Y) = H(X)
H(Y∣X)=H(X,Y)=H(X) 表示(X,Y)发生所包含的熵减去X单独发生包含的熵
推导
H
(
Y
∣
X
)
=
H
(
X
,
Y
)
−
H
(
X
)
H(Y|X) = H(X,Y) - H(X)
H(Y∣X)=H(X,Y)−H(X)
=
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
+
∑
x
l
o
g
p
(
x
)
= -\sum_{x,y}p(x,y)logp(x,y)+\sum_{x}logp(x)
=−∑x,yp(x,y)logp(x,y)+∑xlogp(x)
根据边缘分布概率等于联合分布概率的和得出
=
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
+
∑
x
(
∑
y
p
(
x
,
y
)
)
l
o
g
p
(
x
)
= -\sum_{x,y}p(x,y)logp(x,y) + \sum_{x}(\sum_{y}p(x,y))logp(x)
=−∑x,yp(x,y)logp(x,y)+∑x(∑yp(x,y))logp(x)
=
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
+
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
x
)
=-\sum_{x,y}p(x,y)logp(x,y)+\sum_{x,y}p(x,y)logp(x)
=−∑x,yp(x,y)logp(x,y)+∑x,yp(x,y)logp(x)
=
−
∑
x
,
y
(
l
o
g
p
(
x
,
y
)
−
l
o
g
(
x
)
)
=-\sum_{x,y}(logp(x,y)-log(x))
=−∑x,y(logp(x,y)−log(x)) ----------------->
p
(
x
,
y
)
=
p
(
x
)
−
p
(
y
∣
x
)
p(x,y) = p(x)-p(y|x)
p(x,y)=p(x)−p(y∣x)
=
−
∑
x
,
y
l
o
g
p
(
x
,
y
)
p
(
x
)
=-\sum_{x,y}log\frac{p(x,y)}{p(x)}
=−∑x,ylogp(x)p(x,y)
=
−
∑
x
,
y
l
o
g
p
(
y
∣
x
)
=-\sum_{x,y}logp(y|x)
=−∑x,ylogp(y∣x)
相对熵(互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度)
设p(x),q(x)是X中取值的两个概率分布,则p对q的相对熵为
D
(
p
∣
∣
q
)
=
∑
x
p
(
x
)
l
o
g
p
(
x
)
q
(
x
)
=
E
p
(
x
)
l
o
g
p
(
x
)
q
(
x
)
D(p||q) = \sum_{x}p(x)log\frac{p(x)}{q(x)}=E_{p(x)}log\frac{p(x)}{q(x)}
D(p∣∣q)=x∑p(x)logq(x)p(x)=Ep(x)logq(x)p(x)
在一定程度上,相对熵可以度量两个随机变量的"距离"且有D(p||q)
≠
\neq
̸= D(q||p)
D
(
p
∣
∣
q
)
≥
0
D(p||q)\geq0
D(p∣∣q)≥0
互信息(信息增益)
两个随机变量X,Y的互信息定义为X,Y的联合概率分布和各自独立分布乘积的熵
I
(
X
,
Y
)
=
∑
x
,
y
l
o
g
p
(
x
,
y
)
p
(
x
)
p
(
y
)
I(X,Y) = \sum_{x,y}log\frac{p(x,y)}{p(x)p(y)}
I(X,Y)=x,y∑logp(x)p(y)p(x,y)
有
I
(
X
,
Y
)
=
D
(
P
(
X
,
Y
)
∣
∣
P
(
X
)
P
(
Y
)
)
I(X,Y) = D(P(X,Y)||P(X)P(Y))
I(X,Y)=D(P(X,Y)∣∣P(X)P(Y))
H
(
Y
)
−
I
(
X
,
Y
)
H(Y)-I(X,Y)
H(Y)−I(X,Y)
=
−
∑
y
p
(
y
)
l
o
g
p
(
y
)
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
p
(
x
)
p
(
y
)
=-\sum_{y}p(y)logp(y)-\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}
=−∑yp(y)logp(y)−∑x,yp(x,y)logp(x)p(y)p(x,y)
=
−
∑
y
(
∑
x
p
(
x
,
y
)
)
l
o
g
p
(
y
)
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
p
(
x
)
p
(
y
)
=-\sum_{y}(\sum_{x}p(x,y))logp(y)-\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}
=−∑y(∑xp(x,y))logp(y)−∑x,yp(x,y)logp(x)p(y)p(x,y)
=
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
p
(
x
)
p
(
y
)
=-\sum_{x,y}p(x,y)logp(x,y)-\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}
=−∑x,yp(x,y)logp(x,y)−∑x,yp(x,y)logp(x)p(y)p(x,y)
=
−
∑
x
,
y
p
(
x
,
y
)
(
l
o
g
(
x
,
y
)
+
l
o
g
p
(
x
,
y
)
p
(
y
)
)
=-\sum_{x,y}p(x,y)(log(x,y)+log\frac{p(x,y)}{p(y)})
=−∑x,yp(x,y)(log(x,y)+logp(y)p(x,y))
=
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
p
(
x
,
y
)
p
(
x
)
=-\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)}
=−∑x,yp(x,y)logp(x)p(x,y)
=
−
∑
x
,
y
p
(
x
,
y
)
l
o
g
(
p
(
y
∣
x
)
)
=-\sum_{x,y}p(x,y)log(p(y|x))
=−∑x,yp(x,y)log(p(y∣x))
=
H
(
Y
∣
X
)
=H(Y|X)
=H(Y∣X)
综上推导得出
H(Y)-I(X,Y) = H(Y|X)
通过条件熵定义
H(Y|X) = H(X,Y)-H(X)
根据互信息定义展开得到
H(Y|X)=H(Y)-I(X,Y)
最终得到
I(X,Y) = H(X)+H(Y)-H(X,Y)