机器学习基础知识—互信息理解

最新推荐文章于 2024-03-03 23:11:19 发布

野良绯

最新推荐文章于 2024-03-03 23:11:19 发布

阅读量785

点赞数 1

本文链接：https://blog.csdn.net/qq_40707174/article/details/103132669

版权

互信息的理解

我们在之前研究过两个随机变量的独立性，我们定义若两个随机变量X,Y满足
P(X,Y)=P(X)P(Y)
则我们说随机变量X,Y独立。下面来直观地理解这个公式，可以发现，如果X,Y独立，那么已知X，将不会对Y的分布产生任何影响，即是说P(Y)=P(Y|X)，这个结果的证明也很简单，由贝叶斯公式：

即证。

由此可以看出，独立性反应了已知X的情况下，Y的分布是否会改变，或者说，在给定随机变量X之后，能否为Y带来额外的信息。然而独立性只能表示出两个随机变量之间是否会有关系，但是却不能刻画他们的关系大小。下面我们引入互信息，它不仅能说明两个随机变量之间是否有关系，也能反应他们之间关系的强弱。我们定义互信息I(X,Y)：

我们来稍微理解一下，log里面就是X,Y的联合分布和边际分布的比值，如果对所有X,Y，该值等于1，即是说他们独立的情况下，互信息I(X;Y)=0，即是说这两个随机变量引入其中一个，并不能对另一个带来任何信息，下面我们来稍稍对该式做一个变形

其中，H(Y)是Y的熵，定义为
H(Y)=−∫YP(Y)logP(Y)
衡量的是Y的不确定度，即使说，Y分布得越离散，H(Y)的值越高，而H(Y|X)则表示在已知X的情况下，Y的不确定度，而I(X;Y)则表示由X引入而使Y的不确定度减小的量，因而如果X,Y关系越密切，I(X;Y)越大，I(X;Y)最大的取值是H(Y)，也就是说，X,Y完全相关，由于X的引入，Y的熵由原来的H(Y)减小了I(X;Y)=H(Y)，变成了0，也就是说如果X确定，那么Y就完全确定了。而当X,Y独立时，I(X;Y)=0引入X，并未给Y的确定带来任何好处。

总结下I(X;Y)的性质： 1）I(X;Y)⩾0 2）H(X)−H(X|Y)=I(X;Y)=I(Y;X)=H(Y)−H(Y|X) 3）当X,Y独立时，I(X;Y)=0 4）当X,Y知道一个就能推断另一个时，I(X;Y)=H(X)=H(Y)