条件熵
了解信息熵之前补充一些离散数学的知识:
信息熵
先给出信息熵的公式:
H
(
x
)
=
−
∑
i
=
1
n
p
(
x
i
)
l
o
g
(
p
(
x
i
)
)
H(x)=-\sum\limits_{i=1}^{n}p(x_i)log(p(x_i))
H(x)=−i=1∑np(xi)log(p(xi))
其中:
p
(
x
i
)
p(x_i)
p(xi)代表随机概率事件
x
i
x_i
xi的概率,
下面我们来逐步分析:
首先了解一下信息量: 信息量是对信息的度量,是对信息的一种量化指标,如是时间的量化为s,长度的量化为m,质量的量化为kg等。当我们考虑一个离散的随机变量 x x x的时候,当我们观察到这个变量的一个具体值的时候,我们接受到了多少信息呢?
信息的多少由信息量来衡量,我们接受到的信息量跟具体发生的事件有关.
不难理解,信息量的大小跟事件随机概率有关,越小的概率所包含的信息量越大,如海啸地震,核弹爆发,这种都是小概率事件,却蕴含着巨大的信息,而日常的晴天阴天,太阳每天东升西落,习以为常的事件自然蕴含的信息量就小。
如果是两个独立的事件
a
a
a和
b
b
b,那么同时发生的获得的信息量应该是各自发生时获得的信息之和,即:
h
(
a
,
b
)
=
h
(
a
)
+
h
(
b
)
h(a,b)=h(a)+h(b)
h(a,b)=h(a)+h(b),
由于两个独立的事件
a
a
a和
b
b
b满足
p
(
a
,
b
)
=
p
(
a
)
∗
p
(
b
)
p(a,b)=p(a)*p(b)
p(a,b)=p(a)∗p(b)
根据上面推导,很容易看出
h
(
x
)
h(x)
h(x)一定是关于
p
(
x
)
p(x)
p(x)的对数关系,我们可以试着构造一个函数
h
(
x
)
=
−
l
o
g
2
p
(
x
)
h(x)=-log_2p(x)
h(x)=−log2p(x),前面的负号是干啥的?因为
p
(
x
)
∈
[
0
,
1
]
p(x)\in[0,1]
p(x)∈[0,1],为确保
h
(
x
)
>
0
h(x)>0
h(x)>0
下面正式引出信息熵: 信息量度量的是一个具体事件发生所带来的信息,而熵则是在结果出来之前可能产生的信息量的期望——考虑改随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即
H
(
x
)
=
−
∑
i
=
1
n
p
(
x
i
)
l
o
g
(
p
(
x
i
)
)
H(x)=-\sum\limits_{i=1}^{n}p(x_i)log(p(x_i))
H(x)=−i=1∑np(xi)log(p(xi))
信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。如果一个系统越简单,出现情况种类很少(极端情况为一种情况,那么对应的概率为1,因此对应的信息熵为0),此时的信息熵较小。
互信息
在概率论和信息论中,两个随机变量的互信息(mutual Information ,MI)度量了两个变量之间互相依赖的程度。
互信息的定义
设随机变量 ( X , Y ) {\displaystyle (X,Y)} (X,Y)是空间 X × Y {\displaystyle {\mathcal {X}}\times {\mathcal {Y}}} X×Y中的一对随机变量。若他们的联合分布是 p ( x , y ) {\displaystyle p(x,y)} p(x,y) ,边缘分布分别是 p ( x ) {\displaystyle p(x)} p(x) 和 和 和 p ( y ) {\displaystyle p(y)} p(y),那么,它们之间的互信息可以定义为:
I ( X ; Y ) = D K L ( p ( x , y ) ∥ p ( x ) ⊗ p ( y ) ) {\displaystyle I(X;Y)=D_{\mathrm {KL} }(p(x,y)\|p(x)\otimes p(y))} I(X;Y)=DKL(p(x,y)∥p(x)⊗p(y))
其中, D K L {\displaystyle D_{\mathrm {KL} }} DKL为KL散度(Kullback–Leibler divergence)。注意,根据KL散度的性质,若联合分布 p ( x , y ) p(x,y) p(x,y)等于边缘分布 p ( x ) p(x) p(x)和 p ( y ) p(y) p(y)的乘积,则 I ( X ; Y ) = 0 I(X;Y)=0 I(X;Y)=0,即当 X X X和 Y Y Y相互独立的时候,观测到Y对于我们预测X没有任何帮助,此时他们的互信息为0。
离散变量的互信息
离散随机变量 X 和 Y 的互信息可以计算为:
I ( X ; Y ) = ∑ y ∈ Y ∑ x ∈ X p ( x , y ) log ( p ( x , y ) p ( x ) p ( y ) ) , I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) }, \,\! I(X;Y)=y∈Y∑x∈X∑p(x,y)log(p(x)p(y)p(x,y)),
其中 p ( x , y ) p(x,y) p(x,y) 是 X X X 和 Y Y Y 的联合概率质量函数,而 p ( x ) p(x) p(x) 和 p ( y ) p(y) p(y) 分别是 X X X 和 Y Y Y的边缘概率质量函数。
连续变量的互信息
在连续随机变量的情形下,求和被替换成了二重定积分:
I ( X ; Y ) = ∫ Y ∫ X p ( x , y ) log ( p ( x , y ) p ( x ) p ( y ) ) d x d y , I(X;Y) = \int_Y \int_X p(x,y) \log{ \left(\frac{p(x,y)}{p(x)\,p(y)} \right) } \; dx \,dy, I(X;Y)=∫Y∫Xp(x,y)log(p(x)p(y)p(x,y))dxdy,
其中 p ( x , y ) p(x,y) p(x,y)当前是 X X X 和 Y Y Y 的联合概率’‘密度’'函数,而 p ( x ) p(x) p(x)和 p ( y ) p(y) p(y) 分别是 X X X 和 Y Y Y 的边缘概率密度函数。
如果对数以 2 为基底,互信息的单位是bit。
直观上,互信息度量 X X X 和 Y Y Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X X X 和 Y Y Y 相互独立,则知道 X X X 不对 Y Y Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X X X 是 Y Y Y 的一个确定性函数,且 Y Y Y 也是 X X X 的一个确定性函数,那么传递的所有信息被 X X X 和 Y Y Y 共享:知道 X X X 决定 Y Y Y 的值,反之亦然。因此,在此情形互信息与 Y Y Y(或 X X X)单独包含的不确定度相同,称作 Y Y Y(或 X X X)的熵。而且,这个互信息与 X X X 的熵和 Y Y Y 的熵相同。(这种情形的一个非常特殊的情况是当 X X X 和 Y Y Y 为相同随机变量时。)
互信息是
X
X
X 和
Y
Y
Y 的联合分布相对于假定
X
X
X 和
Y
Y
Y 独立情况下的联合分布之间的内在依赖性。
于是互信息以下面方式度量依赖性:‘‘I’’(
X
X
X;
Y
Y
Y) = 0 当且仅当
X
X
X 和
Y
Y
Y 为独立随机变量。从一个方向很容易看出:当
X
X
X 和
Y
Y
Y 独立时,
P
(
X
,
Y
)
=
p
(
X
)
p
(
Y
)
P(X,Y)= p(X) p(Y)
P(X,Y)=p(X)p(Y),因此:
log ( p ( x , y ) p ( x ) p ( y ) ) = log 1 = 0. \log{ \left( \frac{p(x,y)}{p(x)\,p(y)} \right) } = \log 1 = 0. \,\! log(p(x)p(y)p(x,y))=log1=0.
此外,互信息是非负的(即 I ( X ; Y ) ≥ 0 I(X;Y)\ge0 I(X;Y)≥0; 见下文),而且是对称的(即 I ( X ; Y ) = I ( Y ; X ) I(X;Y) = I(Y;X) I(X;Y)=I(Y;X))。