信息熵韦恩图中的数学关系

背景

    其日,阅文献,偶逢“马尔可夫链”,心起乐,遂取纸笔以证之。追思寻至数时,未果,以头痛罢。其后,偶得一奇法,遂疾书之。愿诸君闲暇之余,阅之以遣时,不是处多指正。

马尔科夫模型

    马尔科夫模型具体形式以链接形式给出,这里拿来引出问题。链接:马尔可夫模型。这里要介绍一个叫马尔可夫链的东东,它是一个多维条件随机变量的概率展开式①: p ( Y 1 Y 2 … Y n ∣ X 1 X 2 … X n ) = p ( Y 1 ∣ X 1 ) ∗ p ( Y 2 ∣ X 2 ) ∗ … p ( Y n ∣ X n ) ① p(Y_1Y_2\dots Y_n|X_1X_2\dots X_n)=p(Y_1|X_1)*p(Y_2|X_2)*\dots p(Y_n|X_n) ① p(Y1Y2YnX1X2Xn)=p(Y1X1)p(Y2X2)p(YnXn)其中, X 1 、 X 2 、 … X n X_1、X_2、\dots X_n X1X2Xn为输入序列, Y 1 、 Y 2 、 … Y n Y_1、Y_2、\dots Y_n Y1Y2Yn为输出序列。假如输入序列当前值为 X m X_m Xm,则 X m − 1 、 X m − 1 、 … X 1 X_{m-1}、X_{m-1}、\dots X_{1} Xm1Xm1X1会对当前值产生影响。但马尔可夫提出如下两个条件,使得上述马尔科夫链成立:

  1. 只有上一个输入序列会对当前序列有影响,即式②: p ( X m ∣ X m − 1 X m − 2 … X 1 ) = p ( X m ∣ X m − 1 ) ② p(X_m|X_{m-1}X_{m-2}\dots X_1)=p(X_m|X_{m-1})② p(XmXm1Xm2X1)=p(XmXm1)
  2. 输出序列当前值只与输入序列当前值有关。

一个疑惑

    根据上述两个条件,我开始对①进行了数学推导,但我遇到了疑惑:根据条件二, Y m Y_m Ym只与 X m X_m Xm有关,而 X m X_m Xm X m − 1 X_{m-1} Xm1有关,那么 Y m Y_m Ym X m − 1 X_{m-1} Xm1是否能够相互独立,我没有办法解决。于是我开始思考另一个问题,倘若有三个随机变量 X 、 Y 、 Z X、Y、Z XYZ,其中 X X X Y Y Y相互独立, X X X Z Z Z相互独立,而 Y Y Y Z Z Z之间不独立,是否能够推导出 p ( X Y Z ) = p ( X ) ∗ p ( Y Z ) p(XYZ)=p(X)*p(YZ) p(XYZ)=p(X)p(YZ),应该如何证明?是否有几条诸如 p ( X Y Z ) = p ( X ) ∗ p ( Y Z ) p(XYZ)=p(X)*p(YZ) p(XYZ)=p(X)p(YZ)的定理让我们在推导概率公式时可以引用?

问题初解

    根据两个条件: X X X Y Y Y相互独立,即 p ( X Y ) = p ( X ) ∗ p ( Y ) p(XY)=p(X)*p(Y) p(XY)=p(X)p(Y) X X X Z Z Z相互独立, p ( X Z ) = p ( X ) ∗ p ( Z ) p(XZ)=p(X)*p(Z) p(XZ)=p(X)p(Z)。现在开证: p ( X Y Z ) = p ( X Y ∣ Z ) ∗ p ( Z ) p(XYZ)=p(XY|Z)*p(Z) p(XYZ)=p(XYZ)p(Z),若能证明 p ( X Y ∣ Z ) = p ( X ∣ Z ) ∗ p ( Y ∣ Z ) p(XY|Z)=p(X|Z)*p(Y|Z) p(XYZ)=p(XZ)p(YZ)则就可以证明上述式子。而问题在于,如何证明在 Z Z Z已知条件下, X X X Y Y Y独立。我们可知,在没有外加条件情况下, X X X Y Y Y相互独立无可厚非,而在条件概率下, Y Y Y Z Z Z有相关性,则在 Z Z Z已知条件下, Y Y Y的概率密度函数是有可能改变的,那条件概率下的 Y Y Y是否与 X X X相互独立,当然感性认识告诉我们这一定相互独立,但我们似乎没有理论的办法对此进行证明。

信息熵的引入

    上述问题好似已经无路可走,即我们没有理论办法去证明“马尔可夫链”。那我们不免要问,马尔可夫是如何证明的?
    信息熵或许能够帮助我们解决这类问题。这里不再详细介绍信息熵的具体定义,但会在这里给出“互信息为零”与“相互独立”是充要条件的证明。关于信息熵与互信息的详细介绍,参考:信息熵与互信息

充要条件的证明

    假如现在有两个随机变量, X X X Y Y Y

充分性

    根据独立性条件: p ( X Y ) = p ( X ) ∗ p ( Y ) p(XY)=p(X)*p(Y) p(XY)=p(X)p(Y),互信息则为: I ( X , Y ) = H ( X ) − H ( X ∣ Y ) = ∑ x ∑ y p ( x , y ) l o g ( p ( x , y ) p ( x ) p ( y ) ) = ∑ x ∑ y p ( x , y ) l o g ( 1 ) = 0 I(X,Y)=H(X)-H(X|Y)=\sum_{x}\sum_{y}p(x,y)log(\frac{p(x,y)}{p(x)p(y)})=\sum_{x}\sum_{y}p(x,y)log(1)=0 I(X,Y)=H(X)H(XY)=xyp(x,y)log(p(x)p(y)p(x,y))=xyp(x,y)log(1)=0。即可以通过独立性条件推出互信息为零。
必要性
    条件为互信息为零。由函数 l o g log log为上凸函数,故可以使用 J e s s e n Jessen Jessen不等式 f ( E ( x ) ) ≥ E ( f ( x ) ) f(E(x))\geq E(f(x)) f(E(x))E(f(x))。由 I ( X , Y ) = ∑ x ∑ y p ( x , y ) l o g ( p ( x , y ) p ( x ) p ( y ) ) = − ∑ x ∑ y p ( x , y ) l o g ( p ( x ) p ( y ) p ( x , y ) ) ≤ l o g ( ∑ x ∑ y p ( x , y ) ∗ p ( x ) p ( y ) p ( x , y ) ) = l o g ( 1 ) = 0 I(X,Y)=\sum_{x}\sum_{y}p(x,y)log(\frac{p(x,y)}{p(x)p(y)})=-\sum_{x}\sum_{y}p(x,y)log(\frac{p(x)p(y)}{p(x,y)})\leq log(\sum_{x}\sum_{y}p(x,y)*\frac{p(x)p(y)}{p(x,y)})=log(1)=0 I(X,Y)=xyp(x,y)log(p(x)p(y)p(x,y))=xyp(x,y)log(p(x,y)p(x)p(y))log(xyp(x,y)p(x,y)p(x)p(y))=log(1)=0。当且仅当 p ( x , y ) p(x,y) p(x,y) 0 0 0 1 1 1组成或 p ( x ) p ( y ) p ( x , y ) \frac{p(x)p(y)}{p(x,y)} p(x,y)p(x)p(y)为常数时,等号成立。且可证,若满足前一个条件时,后一个条件会自动满足。故等号成立的唯一条件即为: p ( x ) p ( y ) p ( x , y ) \frac{p(x)p(y)}{p(x,y)} p(x,y)p(x)p(y)为常数,并且那个常数只能为 1 1 1,即 p ( X Y ) = p ( X ) ∗ p ( Y ) p(XY)=p(X)*p(Y) p(XY)=p(X)p(Y)。即可以通过互信息为零来推出随机变量独立性。
充要性
    根据上述充分性与必要性的证明,可知“两个随机变量相互独立“与“两个随机变量互信息为零”互为充要条件。

信息熵与韦恩图

    信息论中指出: I ( X , Y ) + H ( X Y ) = H ( X ) + H ( Y ) I(X,Y)+H(XY) = H(X)+H(Y) I(X,Y)+H(XY)=H(X)+H(Y)这根据我们韦恩图中的集合公式: p ( X ⋂ Y ) + p ( X ⋃ Y ) = p ( X ) + p ( Y ) p(X\bigcap Y)+p(X\bigcup Y)=p(X) + p(Y) p(XY)+p(XY)=p(X)+p(Y)似乎有相通之处。后者可以利用韦恩图进行表示,这让我们去思索前者是否也可以用韦恩图来表示。假设我们存在一个集合 s e t = { I 1 , I 2 , I 3 … I n } set=\{I_1,I_2,I_3\dots I_n\} set={I1,I2,I3In},这个特殊的集合元素是抽象的信息,即将信息量化,那就可以去理解韦恩图形式下的信息熵。信息熵韦恩图
    如图,两块区域表示两个信息集合,中间交叠位置表示两个信息集合共有的信息,两个信息集合的并集表示两个信息集合全部的信息。而两边每个集合扣除交集余下的信息集合称为条件信息集。从图中可以看出有如下关系式: I ( X , Y ) + H ( X Y ) = H ( X ) + H ( Y ) ③ I(X,Y)+H(XY) = H(X)+H(Y)③ I(X,Y)+H(XY)=H(X)+H(Y) H ( X Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) ④ H(XY) = H(X)+H(Y|X)=H(Y)+H(X|Y)④ H(XY)=H(X)+H(YX)=H(Y)+H(XY)特别地,式子④与概率论中的条件概率公式 p ( X Y ) = p ( X ∣ Y ) p ( Y ) p(XY)=p(X|Y)p(Y) p(XY)=p(XY)p(Y)有异曲同工之妙。

信息熵韦恩图应用

解答疑惑
    针对上述我们疑惑的问题,我们在韦恩图中进行表示:三变量信息熵韦恩图
    可知, H ( X Y ∣ Z ) = H ( X ) + H ( Y ∣ Z ) H(XY|Z)=H(X)+H(Y|Z) H(XYZ)=H(X)+H(YZ)可以推出: p ( X Y ∣ Z ) = p ( X ) p ( Y ∣ Z ) p(XY|Z)=p(X)p(Y|Z) p(XYZ)=p(X)p(YZ)。得证。
马尔科夫链
    根据马尔可夫模型两条假设,我们作出信息熵韦恩图:马尔科夫链模型
    如图,图中阴影部分可表示为: H ( Y 1 Y 2 … Y 6 ∣ X 1 X 2 … X 6 ) = H ( Y 1 ∣ X 1 ) + H ( Y 2 ∣ X 2 ) + … H ( Y 6 ∣ X 6 ) H(Y_1Y_2\dots Y_6|X_1X_2\dots X_6)=H(Y_1|X_1)+H(Y_2|X_2)+\dots H(Y_6|X_6) H(Y1Y2Y6X1X2X6)=H(Y1X1)+H(Y2X2)+H(Y6X6),利用概率表示即为: p ( Y 1 Y 2 … Y 6 ∣ X 1 X 2 … X 6 ) = p ( Y 1 ∣ X 1 ) ∗ p ( Y 2 ∣ X 2 ) ∗ … p ( Y 6 ∣ X 6 ) p(Y_1Y_2\dots Y_6|X_1X_2\dots X_6)=p(Y_1|X_1)*p(Y_2|X_2)*\dots p(Y_6|X_6) p(Y1Y2Y6X1X2X6)=p(Y1X1)p(Y2X2)p(Y6X6)值得注意的是, Y 5 Y_5 Y5虽然与 X 6 X_6 X6也有交集,但这并不违背马尔可夫条件,因为它们之间的交集也存在于 Y 5 Y_5 Y5 X 5 X_5 X5之中。
互信息的引伸
    关于韦恩图,我前一段时间写过一篇博客,这里正好可以用来引伸一下,之前的博客网址在这里。定义多变量互信息 I ( X 1 , X 2 , X 3 … , X n ) I(X_1,X_2,X_3\dots,X_n) I(X1,X2,X3,Xn)为多变量共有信息量,其值可以用其他信息集来表示,公式如下: I ( X 1 , X 2 , X 3 … X n ) = ( − 1 ) 0 ( H ( X 1 ) + H ( X 2 ) + H ( X 3 ) + … H ( X n ) ) + ( − 1 ) 1 ( H ( X 1 X 2 ) + H ( X 1 X 3 ) + H ( X 1 X 4 ) + ⋯ + H ( X n − 1 X n ) ) + ( − 1 ) 2 ( H ( X 1 X 2 X 3 ) + H ( X 1 X 2 X 4 ) + … H ( X n − 2 X n − 1 X n ) ) + ⋯ + ( − 1 ) n − 1 H ( X 1 X 2 X 3 … X n ) I(X_1,X_2,X_3\dots X_n)=(-1)^0(H(X_1)+H(X_2)+H(X_3)+\dots H(X_n))+(-1)^1(H(X_1X_2)+H(X_1X_3)+H(X_1X_4)+\dots +H(X_{n-1}X_n))+(-1)^2(H(X_1X_2X_3)+H(X_1X_2X_4)+\dots H(X_{n-2}X_{n-1}X_{n}))+\dots +(-1)^{n-1}H(X_1X_2X_3\dots X_n) I(X1,X2,X3Xn)=(1)0(H(X1)+H(X2)+H(X3)+H(Xn))+(1)1(H(X1X2)+H(X1X3)+H(X1X4)++H(Xn1Xn))+(1)2(H(X1X2X3)+H(X1X2X4)+H(Xn2Xn1Xn))++(1)n1H(X1X2X3Xn)。此公式还有一个变形式,这里先不做讨论,下次再重开一篇博客来写吧。

结语

    通过上述分析,我们获得了一种分析概率论的新的研究方法。有点意思~。欢迎大噶多多拍砖!

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 在Matlab,可以使用Entropy函数来计算信息熵和图像熵。 信息熵是用来度量信源的不确定性的一种方法。对于一个离散信源,其信息熵可以通过以下公式来计算: H(X) = -Σ(p(x)log₂p(x)) 其,H(X)表示信源X的信息熵,p(x)表示信源X输出为x的概率。 在Matlab,可以通过定义概率分布数组并使用Entropy函数来计算信息熵。例如,假设信源X的输出为{0,1,2},对应的概率分布为{0.2,0.3,0.5},可以使用以下代码计算信息熵: p = [0.2,0.3,0.5]; entropy = -sum(p.*log2(p)) 图像熵是对图像像素值的分布进行度量的一种方法。对于一幅灰度图像,图像熵可以表示为: H(I) = -Σ(p(i)log₂p(i)) 其,H(I)表示图像I的图像熵,p(i)表示图像I像素值为i的概率。 在Matlab,可以使用imhist函数计算图像的直方图,并使用Entropy函数来计算图像熵。例如,假设图像为I,可以使用以下代码计算图像熵: histogram = imhist(I); total_pixels = numel(I); p = histogram/total_pixels; entropy = -sum(p.*log2(p)) 使用以上的方法,可以在Matlab方便地计算信息熵和图像熵。 ### 回答2: 在MATLAB信息熵和图像熵是个常用的计算方法,用于衡量数据的不确定性和图像的复杂度。下面分别介绍这种计算方法。 信息熵是一种衡量数据不确定性的度量方式,可以用于评估信号、数据等的平均信息量。在MATLAB,可以使用entropy函数计算信号的信息熵。此函数接受一个向量或矩阵作为输入,并返回其信息熵值。 例如,我们可以使用如下代码计算一个信号的信息熵: ```matlab x = [1 1 1 1 2 2 2 3 3 4]; entropy_x = entropy(x); disp(entropy_x); ``` 在以上代码,我们定义了一个信号x,然后使用entropy函数计算其信息熵,并将结果输出。以上代码运行后,会输出结果为1.8464。 图像熵是一种衡量图像复杂度的度量方式,可以用于评估图像的信息含量和纹理复杂度。在MATLAB,可以使用graycomatrix和entropy函数计算图像的熵。graycomatrix函数用于计算图像的灰度共生矩阵,然后entropy函数用于计算灰度共生矩阵的熵值。 例如,我们可以使用如下代码计算一幅图像的熵: ```matlab img = imread('image.jpg'); gray_img = rgb2gray(img); glcm = graycomatrix(gray_img); entropy_img = entropy(glcm); disp(entropy_img); ``` 在以上代码,我们首先读取了一幅图像,然后使用rgb2gray函数将图像转换为灰度图像。接下来,使用graycomatrix函数计算图像的灰度共生矩阵glcm,最后使用entropy函数计算灰度共生矩阵的熵值。以上代码运行后,会输出图像的熵值。 综上所述,在MATLAB可以使用entropy函数计算信号的信息熵,使用entropy函数结合graycomatrix函数计算图像的熵。这些函数可以帮助我们量化信号和图像的不确定性和复杂度。 ### 回答3: Matlab是一种常用的科学计算软件,也可用于计算信息熵和图像熵。 信息熵是一种衡量信息不确定性的指标。在Matlab,我们可以使用entropymc函数来计算信息熵。该函数首先将数据按照其统计分布进行离散化,然后根据计算公式计算信息熵。计算结果越大,表示数据的不确定性越高。 对于图像熵的计算,首先需要将图像转化为灰度图像。在Matlab,我们可以使用rgb2gray函数将彩色图像转化为灰度图像。然后,可以使用imhist函数计算灰度图像的直方图。直方图表示了不同灰度级的像素的分布情况。最后,根据直方图计算图像熵。图像熵越大,表示图像的灰度级分布越均匀,图像越丰富多样。 在计算信息熵和图像熵时,需要注意数据的离散化和概率的估计。Matlab提供了丰富的处理函数和工具箱,可以帮助我们进行相关计算,并得到准确和可靠的结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值