机器学习_互信息/条件熵/交叉熵/相对熵

最新推荐文章于 2023-10-16 21:15:26 发布

小豆芽_

最新推荐文章于 2023-10-16 21:15:26 发布

阅读量254

点赞数

分类专栏：机器学习文章标签：互信息概率

机器学习专栏收录该内容

24 篇文章 0 订阅

订阅专栏

我们在之前研究过两个随机变量的独立性，我们定义若两个随机变量X,Y满足

P (X, Y) = P (X) P (Y)

则我们说随机变量 X,YX,Y独立。下面来直观地理解这个公式，可以发现，如果 X,YX,Y独立，那么已知 XX，将不会对 YY的分布产生任何影响，即是说 P(Y)=P(Y|X)P(Y)=P(Y|X)，这个结果的证明也很简单，由贝叶斯公式：

P (Y | X) = P ( X , Y ) P ( X ) = P ( X ) P ( Y ) P ( X ) = P (Y)

即证。

由此可以看出，独立性反应了已知X的情况下，Y的分布是否会改变，或者说，在给定随机变量X之后，能否为Y带来额外的信息。然而独立性只能表示出两个随机变量之间是否会有关系，但是却不能刻画他们的关系大小。下面我们引入互信息，它不仅能说明两个随机变量之间是否有关系，也能反应他们之间关系的强弱。我们定义互信息I(X,Y)：

I (X; Y) = \int X \int Y P (X, Y) log P ( X , Y ) P ( X ) P ( Y )

我们来稍微理解一下，log里面就是X,Y的联合分布和边际分布的比值，如果对所有X,Y，该值等于1，即是说他们独立的情况下，互信息I(X;Y)=0，即是说这两个随机变量引入其中一个，并不能对另一个带来任何信息，下面我们来稍稍对该式做一个变形

I (X; Y) = \int X \int Y P (X, Y) log P ( X , Y ) P ( X ) P ( Y ) = \int X \int Y P (X, Y) log P ( X , Y ) P ( X ) - \int X \int Y P (X, Y) log P (Y) = \int X \int Y P (X) P (Y | X) log P (Y | X) - \int Y log P (Y) \int X P (X, Y) = \int X P (X) \int Y P (Y | X) log P (Y | X) - \int Y log P (Y) P (Y) = - \int X P (X) H (Y | X = x) + H (Y) = H (Y) - H (Y | X)

其中，H(Y)是Y的熵，定义为

H (Y) = - \int Y P (Y) log P (Y)

衡量的是 YY的不确定度，即使说， YY分布得越离散， H(Y)H(Y)的值越高，而 H(Y|X)H(Y|X)则表示在已知 XX的情况下， YY的不确定度，而 I(X;Y)I(X;Y)则表示由 XX引入而使 YY的不确定度减小的量，因而如果 X,YX,Y关系越密切， I(X;Y)I(X;Y)越大， I(X;Y)I(X;Y)最大的取值是 H(Y)H(Y)，也就是说， X,YX,Y完全相关，由于X的引入， YY的熵由原来的 H(Y)H(Y)减小了 I(X;Y)=H(Y)I(X;Y)=H(Y)，变成了0，也就是说如果 XX确定，那么 YY就完全确定了。而当 X,YX,Y独立时， I(X;Y)=0I(X;Y)=0引入 XX，并未给 YY的确定带来任何好处。

【1】来源：http://www.fuzihao.org/blog/2015/01/17/%E4%BA%92%E4%BF%A1%E6%81%AF%E7%9A%84%E7%90%86%E8%A7%A3/

【2】条件熵：https://blog.csdn.net/xwd18280820053/article/details/70739368

【3】交叉熵/相对熵：https://blog.csdn.net/u012177034/article/details/61205473

小豆芽_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习_互信息/条件熵/交叉熵/相对熵

我们在之前研究过两个随机变量的独立性，我们定义若两个随机变量X,YX,Y满足P(X,Y)=P(X)P(Y)P(X,Y)=P(X)P(Y) 则我们说随机变量X,YX,Y独立。下面来直观地理解这个公式，可以发现，如果X,YX,Y独立，那么已知XX，将不会对YY的分布产生任何影响，即是说P(Y)=P(Y|X)P(Y)=P(Y|X)，这个结果的证明也很简单，由贝叶斯公式：P(Y|X)=P(X,Y...
复制链接

扫一扫

专栏目录