互信息的理解与推导

最新推荐文章于 2024-09-10 17:31:32 发布

Group3304

最新推荐文章于 2024-09-10 17:31:32 发布

阅读量3.3k

点赞数

转自切问路 by Z.H. Fu

我们在之前研究过两个随机变量的独立性，我们定义若两个随机变量X,Y满足

P(X,Y)=P(X)P(Y)

则我们说随机变量X,Y独立。下面来直观地理解这个公式，可以发现，如果X,Y独立，那么已知X，将不会对Y的分布产生任何影响，即是说P(Y)=P(Y|X)，这个结果的证明也很简单，由贝叶斯公式：

P(Y|X)=P(X,Y)P(X)=P(X)P(Y)P(X)=P(Y)

即证。

由此可以看出，独立性反应了已知X的情况下，Y的分布是否会改变，或者说，在给定随机变量X之后，能否为Y带来额外的信息。然而独立性只能表示出两个随机变量之间是否会有关系，但是却不能刻画他们的关系大小。下面我们引入互信息，它不仅能说明两个随机变量之间是否有关系，也能反应他们之间关系的强弱。我们定义互信息I(X,Y)：

I (X; Y) = \int X \int Y P (X, Y) log P ( X , Y ) P ( X ) P ( Y )

我们来稍微理解一下，log里面就是X,Y的联合分布和边际分布的比值，如果对所有X,Y，该值等于1，即是说他们独立的情况下，互信息I(X;Y)=0，即是说这两个随机变量引入其中一个，并不能对另一个带来任何信息，下面我们来稍稍对该式做一个变形

I (X; Y) = \int X \int Y P (X, Y) log P ( X , Y ) P ( X ) P ( Y ) = \int X \int Y P (X, Y) log P ( X , Y ) P ( X ) - \int X \int Y P (X, Y) log P (Y) = \int X \int Y P (X) P (Y | X) log P (Y | X) - \int Y log P (Y) \int X P (X, Y) = \int X P (X) \int Y P (Y | X) log P (Y | X) - \int Y log P (Y) P (Y) = - \int X P (X) H (Y | X = x) + H (Y) = H (Y) - H (Y | X)

其中，H(Y)是Y的熵，定义为

H (Y) = - \int Y P (Y) log P (Y)

衡量的是 YY的不确定度，即使说， YY分布得越离散， H(Y)H(Y)的值越高，而 H(Y|X)H(Y|X)则表示在已知 XX的情况下， YY的不确定度，而 I(X;Y)I(X;Y)则表示由 XX引入而使 YY的不确定度减小的量，因而如果 X,YX,Y关系越密切， I(X;Y)I(X;Y)越大， I(X;Y)I(X;Y)最大的取值是 H(Y)H(Y)，也就是说， X,YX,Y完全相关，由于X的引入， YY的熵由原来的 H(Y)H(Y)减小了 I(X;Y)=H(Y)I(X;Y)=H(Y)，变成了0，也就是说如果 XX确定，那么 YY就完全确定了。而当 X,YX,Y独立时， I(X;Y)=0I(X;Y)=0引入 XX，并未给 YY的确定带来任何好处。

总结下I(X;Y)

的性质：

1）

I(X;Y)⩾0

2）