信息熵韦恩图中的数学关系

嗨哟啊哈

已于 2022-12-08 23:52:07 修改

阅读量525

点赞数 4

分类专栏：概率论文章标签：概率论算法

于 2022-12-08 23:20:12 首次发布

本文链接：https://blog.csdn.net/Jdeframe/article/details/128217621

版权

概率论专栏收录该内容

2 篇文章 0 订阅

订阅专栏

背景

其日，阅文献，偶逢“马尔可夫链”，心起乐，遂取纸笔以证之。追思寻至数时，未果，以头痛罢。其后，偶得一奇法，遂疾书之。愿诸君闲暇之余，阅之以遣时，不是处多指正。

马尔科夫模型

马尔科夫模型具体形式以链接形式给出，这里拿来引出问题。链接：马尔可夫模型。这里要介绍一个叫马尔可夫链的东东，它是一个多维条件随机变量的概率展开式①： $p(Y_1Y_2\dots Y_n|X_1X_2\dots X_n)=p(Y_1|X_1)*p(Y_2|X_2)*\dots p(Y_n|X_n) ①$ 其中， $X_1、X_2、\dots X_n$ 为输入序列， $Y_1、Y_2、\dots Y_n$ 为输出序列。假如输入序列当前值为 $X_m$ ，则 $X_{m-1}、X_{m-1}、\dots X_{1}$ 会对当前值产生影响。但马尔可夫提出如下两个条件，使得上述马尔科夫链成立：

只有上一个输入序列会对当前序列有影响，即式②： $p(X_m|X_{m-1}X_{m-2}\dots X_1)=p(X_m|X_{m-1})②$
输出序列当前值只与输入序列当前值有关。

一个疑惑

根据上述两个条件，我开始对①进行了数学推导，但我遇到了疑惑：根据条件二， $Y_m$ 只与 $X_m$ 有关，而 $X_m$ 与 $X_{m-1}$ 有关，那么 $Y_m$ 与 $X_{m-1}$ 是否能够相互独立，我没有办法解决。于是我开始思考另一个问题，倘若有三个随机变量 $X 、 Y 、 Z$ ，其中 $X$ 与 $Y$ 相互独立， $X$ 与 $Z$ 相互独立，而 $Y$ 与 $Z$ 之间不独立，是否能够推导出 $p (X Y Z) = p (X) * p (Y Z)$ ，应该如何证明？是否有几条诸如 $p (X Y Z) = p (X) * p (Y Z)$ 的定理让我们在推导概率公式时可以引用？

问题初解

根据两个条件： $X$ 与 $Y$ 相互独立，即 $p (X Y) = p (X) * p (Y)$ 。 $X$ 与 $Z$ 相互独立， $p (X Z) = p (X) * p (Z)$ 。现在开证： $p (X Y Z) = p (X Y ∣ Z) * p (Z)$ ，若能证明 $p (X Y ∣ Z) = p (X ∣ Z) * p (Y ∣ Z)$ 则就可以证明上述式子。而问题在于，如何证明在 $Z$ 已知条件下， $X$ 与 $Y$ 独立。我们可知，在没有外加条件情况下， $X$ 与 $Y$ 相互独立无可厚非，而在条件概率下， $Y$ 与 $Z$ 有相关性，则在 $Z$ 已知条件下， $Y$ 的概率密度函数是有可能改变的，那条件概率下的 $Y$ 是否与 $X$ 相互独立，当然感性认识告诉我们这一定相互独立，但我们似乎没有理论的办法对此进行证明。

信息熵的引入

上述问题好似已经无路可走，即我们没有理论办法去证明“马尔可夫链”。那我们不免要问，马尔可夫是如何证明的？
信息熵或许能够帮助我们解决这类问题。这里不再详细介绍信息熵的具体定义，但会在这里给出“互信息为零”与“相互独立”是充要条件的证明。关于信息熵与互信息的详细介绍，参考：信息熵与互信息。

充要条件的证明

假如现在有两个随机变量， $X$ 与 $Y$ 。

充分性

    根据独立性条件： $p (X Y) = p (X) * p (Y)$ ，互信息则为: $I(X,Y)=H(X)-H(X|Y)=\sum_{x}\sum_{y}p(x,y)log(\frac{p(x,y)}{p(x)p(y)})=\sum_{x}\sum_{y}p(x,y)log(1)=0$ 。即可以通过独立性条件推出互信息为零。
必要性
    条件为互信息为零。由函数 $l o g$ 为上凸函数，故可以使用 $J e s s e n$ 不等式 $f(E(x))\geq E(f(x))$ 。由 $I(X,Y)=\sum_{x}\sum_{y}p(x,y)log(\frac{p(x,y)}{p(x)p(y)})=-\sum_{x}\sum_{y}p(x,y)log(\frac{p(x)p(y)}{p(x,y)})\leq log(\sum_{x}\sum_{y}p(x,y)*\frac{p(x)p(y)}{p(x,y)})=log(1)=0$ 。当且仅当 $p (x, y)$ 由 $0$ 与 $1$ 组成或 $\frac{p(x)p(y)}{p(x,y)}$ 为常数时，等号成立。且可证，若满足前一个条件时，后一个条件会自动满足。故等号成立的唯一条件即为： $\frac{p(x)p(y)}{p(x,y)}$ 为常数，并且那个常数只能为 $1$ ，即 $p (X Y) = p (X) * p (Y)$ 。即可以通过互信息为零来推出随机变量独立性。
充要性
    根据上述充分性与必要性的证明，可知“两个随机变量相互独立“与“两个随机变量互信息为零”互为充要条件。

信息熵与韦恩图

信息论中指出： $I (X, Y) + H (X Y) = H (X) + H (Y)$ 这根据我们韦恩图中的集合公式: $p(X\bigcap Y)+p(X\bigcup Y)=p(X) + p(Y)$ 似乎有相通之处。后者可以利用韦恩图进行表示，这让我们去思索前者是否也可以用韦恩图来表示。假设我们存在一个集合 $set=\{I_1,I_2,I_3\dots I_n\}$ ，这个特殊的集合元素是抽象的信息，即将信息量化，那就可以去理解韦恩图形式下的信息熵。信息熵韦恩图
如图，两块区域表示两个信息集合，中间交叠位置表示两个信息集合共有的信息，两个信息集合的并集表示两个信息集合全部的信息。而两边每个集合扣除交集余下的信息集合称为条件信息集。从图中可以看出有如下关系式： $I (X, Y) + H (X Y) = H (X) + H (Y) ③$ $H (X Y) = H (X) + H (Y ∣ X) = H (Y) + H (X ∣ Y) ④$ 特别地，式子④与概率论中的条件概率公式 $p (X Y) = p (X ∣ Y) p (Y)$ 有异曲同工之妙。

信息熵韦恩图应用

解答疑惑
    针对上述我们疑惑的问题，我们在韦恩图中进行表示：三变量信息熵韦恩图
    可知， $H (X Y ∣ Z) = H (X) + H (Y ∣ Z)$ 可以推出: $p (X Y ∣ Z) = p (X) p (Y ∣ Z)$ 。得证。
马尔科夫链
    根据马尔可夫模型两条假设，我们作出信息熵韦恩图：马尔科夫链模型
    如图，图中阴影部分可表示为： $H(Y_1Y_2\dots Y_6|X_1X_2\dots X_6)=H(Y_1|X_1)+H(Y_2|X_2)+\dots H(Y_6|X_6)$ ，利用概率表示即为： $p(Y_1Y_2\dots Y_6|X_1X_2\dots X_6)=p(Y_1|X_1)*p(Y_2|X_2)*\dots p(Y_6|X_6)$ 值得注意的是， $Y_5$ 虽然与 $X_6$ 也有交集，但这并不违背马尔可夫条件，因为它们之间的交集也存在于 $Y_5$ 与 $X_5$ 之中。
互信息的引伸
    关于韦恩图，我前一段时间写过一篇博客，这里正好可以用来引伸一下，之前的博客网址在这里。定义多变量互信息 $I(X_1,X_2,X_3\dots,X_n)$ 为多变量共有信息量，其值可以用其他信息集来表示，公式如下： $I(X_1,X_2,X_3\dots X_n)=(-1)^0(H(X_1)+H(X_2)+H(X_3)+\dots H(X_n))+(-1)^1(H(X_1X_2)+H(X_1X_3)+H(X_1X_4)+\dots +H(X_{n-1}X_n))+(-1)^2(H(X_1X_2X_3)+H(X_1X_2X_4)+\dots H(X_{n-2}X_{n-1}X_{n}))+\dots +(-1)^{n-1}H(X_1X_2X_3\dots X_n)$ 。此公式还有一个变形式，这里先不做讨论，下次再重开一篇博客来写吧。