背景
其日,阅文献,偶逢“马尔可夫链”,心起乐,遂取纸笔以证之。追思寻至数时,未果,以头痛罢。其后,偶得一奇法,遂疾书之。愿诸君闲暇之余,阅之以遣时,不是处多指正。
马尔科夫模型
马尔科夫模型具体形式以链接形式给出,这里拿来引出问题。链接:马尔可夫模型。这里要介绍一个叫马尔可夫链的东东,它是一个多维条件随机变量的概率展开式①: p ( Y 1 Y 2 … Y n ∣ X 1 X 2 … X n ) = p ( Y 1 ∣ X 1 ) ∗ p ( Y 2 ∣ X 2 ) ∗ … p ( Y n ∣ X n ) ① p(Y_1Y_2\dots Y_n|X_1X_2\dots X_n)=p(Y_1|X_1)*p(Y_2|X_2)*\dots p(Y_n|X_n) ① p(Y1Y2…Yn∣X1X2…Xn)=p(Y1∣X1)∗p(Y2∣X2)∗…p(Yn∣Xn)①其中, X 1 、 X 2 、 … X n X_1、X_2、\dots X_n X1、X2、…Xn为输入序列, Y 1 、 Y 2 、 … Y n Y_1、Y_2、\dots Y_n Y1、Y2、…Yn为输出序列。假如输入序列当前值为 X m X_m Xm,则 X m − 1 、 X m − 1 、 … X 1 X_{m-1}、X_{m-1}、\dots X_{1} Xm−1、Xm−1、…X1会对当前值产生影响。但马尔可夫提出如下两个条件,使得上述马尔科夫链成立:
- 只有上一个输入序列会对当前序列有影响,即式②: p ( X m ∣ X m − 1 X m − 2 … X 1 ) = p ( X m ∣ X m − 1 ) ② p(X_m|X_{m-1}X_{m-2}\dots X_1)=p(X_m|X_{m-1})② p(Xm∣Xm−1Xm−2…X1)=p(Xm∣Xm−1)②
- 输出序列当前值只与输入序列当前值有关。
一个疑惑
根据上述两个条件,我开始对①进行了数学推导,但我遇到了疑惑:根据条件二, Y m Y_m Ym只与 X m X_m Xm有关,而 X m X_m Xm与 X m − 1 X_{m-1} Xm−1有关,那么 Y m Y_m Ym与 X m − 1 X_{m-1} Xm−1是否能够相互独立,我没有办法解决。于是我开始思考另一个问题,倘若有三个随机变量 X 、 Y 、 Z X、Y、Z X、Y、Z,其中 X X X与 Y Y Y相互独立, X X X与 Z Z Z相互独立,而 Y Y Y与 Z Z Z之间不独立,是否能够推导出 p ( X Y Z ) = p ( X ) ∗ p ( Y Z ) p(XYZ)=p(X)*p(YZ) p(XYZ)=p(X)∗p(YZ),应该如何证明?是否有几条诸如 p ( X Y Z ) = p ( X ) ∗ p ( Y Z ) p(XYZ)=p(X)*p(YZ) p(XYZ)=p(X)∗p(YZ)的定理让我们在推导概率公式时可以引用?
问题初解
根据两个条件: X X X与 Y Y Y相互独立,即 p ( X Y ) = p ( X ) ∗ p ( Y ) p(XY)=p(X)*p(Y) p(XY)=p(X)∗p(Y)。 X X X与 Z Z Z相互独立, p ( X Z ) = p ( X ) ∗ p ( Z ) p(XZ)=p(X)*p(Z) p(XZ)=p(X)∗p(Z)。现在开证: p ( X Y Z ) = p ( X Y ∣ Z ) ∗ p ( Z ) p(XYZ)=p(XY|Z)*p(Z) p(XYZ)=p(XY∣Z)∗p(Z),若能证明 p ( X Y ∣ Z ) = p ( X ∣ Z ) ∗ p ( Y ∣ Z ) p(XY|Z)=p(X|Z)*p(Y|Z) p(XY∣Z)=p(X∣Z)∗p(Y∣Z)则就可以证明上述式子。而问题在于,如何证明在 Z Z Z已知条件下, X X X与 Y Y Y独立。我们可知,在没有外加条件情况下, X X X与 Y Y Y相互独立无可厚非,而在条件概率下, Y Y Y与 Z Z Z有相关性,则在 Z Z Z已知条件下, Y Y Y的概率密度函数是有可能改变的,那条件概率下的 Y Y Y是否与 X X X相互独立,当然感性认识告诉我们这一定相互独立,但我们似乎没有理论的办法对此进行证明。
信息熵的引入
上述问题好似已经无路可走,即我们没有理论办法去证明“马尔可夫链”。那我们不免要问,马尔可夫是如何证明的?
信息熵或许能够帮助我们解决这类问题。这里不再详细介绍信息熵的具体定义,但会在这里给出“互信息为零”与“相互独立”是充要条件的证明。关于信息熵与互信息的详细介绍,参考:信息熵与互信息。
充要条件的证明
假如现在有两个随机变量, X X X与 Y Y Y。
充分性
根据独立性条件:
p
(
X
Y
)
=
p
(
X
)
∗
p
(
Y
)
p(XY)=p(X)*p(Y)
p(XY)=p(X)∗p(Y),互信息则为:
I
(
X
,
Y
)
=
H
(
X
)
−
H
(
X
∣
Y
)
=
∑
x
∑
y
p
(
x
,
y
)
l
o
g
(
p
(
x
,
y
)
p
(
x
)
p
(
y
)
)
=
∑
x
∑
y
p
(
x
,
y
)
l
o
g
(
1
)
=
0
I(X,Y)=H(X)-H(X|Y)=\sum_{x}\sum_{y}p(x,y)log(\frac{p(x,y)}{p(x)p(y)})=\sum_{x}\sum_{y}p(x,y)log(1)=0
I(X,Y)=H(X)−H(X∣Y)=∑x∑yp(x,y)log(p(x)p(y)p(x,y))=∑x∑yp(x,y)log(1)=0。即可以通过独立性条件推出互信息为零。
必要性
条件为互信息为零。由函数
l
o
g
log
log为上凸函数,故可以使用
J
e
s
s
e
n
Jessen
Jessen不等式
f
(
E
(
x
)
)
≥
E
(
f
(
x
)
)
f(E(x))\geq E(f(x))
f(E(x))≥E(f(x))。由
I
(
X
,
Y
)
=
∑
x
∑
y
p
(
x
,
y
)
l
o
g
(
p
(
x
,
y
)
p
(
x
)
p
(
y
)
)
=
−
∑
x
∑
y
p
(
x
,
y
)
l
o
g
(
p
(
x
)
p
(
y
)
p
(
x
,
y
)
)
≤
l
o
g
(
∑
x
∑
y
p
(
x
,
y
)
∗
p
(
x
)
p
(
y
)
p
(
x
,
y
)
)
=
l
o
g
(
1
)
=
0
I(X,Y)=\sum_{x}\sum_{y}p(x,y)log(\frac{p(x,y)}{p(x)p(y)})=-\sum_{x}\sum_{y}p(x,y)log(\frac{p(x)p(y)}{p(x,y)})\leq log(\sum_{x}\sum_{y}p(x,y)*\frac{p(x)p(y)}{p(x,y)})=log(1)=0
I(X,Y)=∑x∑yp(x,y)log(p(x)p(y)p(x,y))=−∑x∑yp(x,y)log(p(x,y)p(x)p(y))≤log(∑x∑yp(x,y)∗p(x,y)p(x)p(y))=log(1)=0。当且仅当
p
(
x
,
y
)
p(x,y)
p(x,y)由
0
0
0与
1
1
1组成或
p
(
x
)
p
(
y
)
p
(
x
,
y
)
\frac{p(x)p(y)}{p(x,y)}
p(x,y)p(x)p(y)为常数时,等号成立。且可证,若满足前一个条件时,后一个条件会自动满足。故等号成立的唯一条件即为:
p
(
x
)
p
(
y
)
p
(
x
,
y
)
\frac{p(x)p(y)}{p(x,y)}
p(x,y)p(x)p(y)为常数,并且那个常数只能为
1
1
1,即
p
(
X
Y
)
=
p
(
X
)
∗
p
(
Y
)
p(XY)=p(X)*p(Y)
p(XY)=p(X)∗p(Y)。即可以通过互信息为零来推出随机变量独立性。
充要性
根据上述充分性与必要性的证明,可知“两个随机变量相互独立“与“两个随机变量互信息为零”互为充要条件。
信息熵与韦恩图
信息论中指出:
I
(
X
,
Y
)
+
H
(
X
Y
)
=
H
(
X
)
+
H
(
Y
)
I(X,Y)+H(XY) = H(X)+H(Y)
I(X,Y)+H(XY)=H(X)+H(Y)这根据我们韦恩图中的集合公式:
p
(
X
⋂
Y
)
+
p
(
X
⋃
Y
)
=
p
(
X
)
+
p
(
Y
)
p(X\bigcap Y)+p(X\bigcup Y)=p(X) + p(Y)
p(X⋂Y)+p(X⋃Y)=p(X)+p(Y)似乎有相通之处。后者可以利用韦恩图进行表示,这让我们去思索前者是否也可以用韦恩图来表示。假设我们存在一个集合
s
e
t
=
{
I
1
,
I
2
,
I
3
…
I
n
}
set=\{I_1,I_2,I_3\dots I_n\}
set={I1,I2,I3…In},这个特殊的集合元素是抽象的信息,即将信息量化,那就可以去理解韦恩图形式下的信息熵。
如图,两块区域表示两个信息集合,中间交叠位置表示两个信息集合共有的信息,两个信息集合的并集表示两个信息集合全部的信息。而两边每个集合扣除交集余下的信息集合称为条件信息集。从图中可以看出有如下关系式:
I
(
X
,
Y
)
+
H
(
X
Y
)
=
H
(
X
)
+
H
(
Y
)
③
I(X,Y)+H(XY) = H(X)+H(Y)③
I(X,Y)+H(XY)=H(X)+H(Y)③
H
(
X
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
=
H
(
Y
)
+
H
(
X
∣
Y
)
④
H(XY) = H(X)+H(Y|X)=H(Y)+H(X|Y)④
H(XY)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)④特别地,式子④与概率论中的条件概率公式
p
(
X
Y
)
=
p
(
X
∣
Y
)
p
(
Y
)
p(XY)=p(X|Y)p(Y)
p(XY)=p(X∣Y)p(Y)有异曲同工之妙。
信息熵韦恩图应用
解答疑惑
针对上述我们疑惑的问题,我们在韦恩图中进行表示:
可知,
H
(
X
Y
∣
Z
)
=
H
(
X
)
+
H
(
Y
∣
Z
)
H(XY|Z)=H(X)+H(Y|Z)
H(XY∣Z)=H(X)+H(Y∣Z)可以推出:
p
(
X
Y
∣
Z
)
=
p
(
X
)
p
(
Y
∣
Z
)
p(XY|Z)=p(X)p(Y|Z)
p(XY∣Z)=p(X)p(Y∣Z)。得证。
马尔科夫链
根据马尔可夫模型两条假设,我们作出信息熵韦恩图:
如图,图中阴影部分可表示为:
H
(
Y
1
Y
2
…
Y
6
∣
X
1
X
2
…
X
6
)
=
H
(
Y
1
∣
X
1
)
+
H
(
Y
2
∣
X
2
)
+
…
H
(
Y
6
∣
X
6
)
H(Y_1Y_2\dots Y_6|X_1X_2\dots X_6)=H(Y_1|X_1)+H(Y_2|X_2)+\dots H(Y_6|X_6)
H(Y1Y2…Y6∣X1X2…X6)=H(Y1∣X1)+H(Y2∣X2)+…H(Y6∣X6),利用概率表示即为:
p
(
Y
1
Y
2
…
Y
6
∣
X
1
X
2
…
X
6
)
=
p
(
Y
1
∣
X
1
)
∗
p
(
Y
2
∣
X
2
)
∗
…
p
(
Y
6
∣
X
6
)
p(Y_1Y_2\dots Y_6|X_1X_2\dots X_6)=p(Y_1|X_1)*p(Y_2|X_2)*\dots p(Y_6|X_6)
p(Y1Y2…Y6∣X1X2…X6)=p(Y1∣X1)∗p(Y2∣X2)∗…p(Y6∣X6)值得注意的是,
Y
5
Y_5
Y5虽然与
X
6
X_6
X6也有交集,但这并不违背马尔可夫条件,因为它们之间的交集也存在于
Y
5
Y_5
Y5与
X
5
X_5
X5之中。
互信息的引伸
关于韦恩图,我前一段时间写过一篇博客,这里正好可以用来引伸一下,之前的博客网址在这里。定义多变量互信息
I
(
X
1
,
X
2
,
X
3
…
,
X
n
)
I(X_1,X_2,X_3\dots,X_n)
I(X1,X2,X3…,Xn)为多变量共有信息量,其值可以用其他信息集来表示,公式如下:
I
(
X
1
,
X
2
,
X
3
…
X
n
)
=
(
−
1
)
0
(
H
(
X
1
)
+
H
(
X
2
)
+
H
(
X
3
)
+
…
H
(
X
n
)
)
+
(
−
1
)
1
(
H
(
X
1
X
2
)
+
H
(
X
1
X
3
)
+
H
(
X
1
X
4
)
+
⋯
+
H
(
X
n
−
1
X
n
)
)
+
(
−
1
)
2
(
H
(
X
1
X
2
X
3
)
+
H
(
X
1
X
2
X
4
)
+
…
H
(
X
n
−
2
X
n
−
1
X
n
)
)
+
⋯
+
(
−
1
)
n
−
1
H
(
X
1
X
2
X
3
…
X
n
)
I(X_1,X_2,X_3\dots X_n)=(-1)^0(H(X_1)+H(X_2)+H(X_3)+\dots H(X_n))+(-1)^1(H(X_1X_2)+H(X_1X_3)+H(X_1X_4)+\dots +H(X_{n-1}X_n))+(-1)^2(H(X_1X_2X_3)+H(X_1X_2X_4)+\dots H(X_{n-2}X_{n-1}X_{n}))+\dots +(-1)^{n-1}H(X_1X_2X_3\dots X_n)
I(X1,X2,X3…Xn)=(−1)0(H(X1)+H(X2)+H(X3)+…H(Xn))+(−1)1(H(X1X2)+H(X1X3)+H(X1X4)+⋯+H(Xn−1Xn))+(−1)2(H(X1X2X3)+H(X1X2X4)+…H(Xn−2Xn−1Xn))+⋯+(−1)n−1H(X1X2X3…Xn)。此公式还有一个变形式,这里先不做讨论,下次再重开一篇博客来写吧。
结语
通过上述分析,我们获得了一种分析概率论的新的研究方法。有点意思~。欢迎大噶多多拍砖!