互信息（Mutual Information）的介绍

最新推荐文章于 2025-03-11 20:56:09 发布

猪逻辑公园

最新推荐文章于 2025-03-11 20:56:09 发布

阅读量7.1w

点赞数 26

分类专栏：机器学习

机器学习专栏收录该内容

77 篇文章

订阅专栏

互信息，Mutual Information，缩写为MI，表示两个变量X与Y是否有关系，以及关系的强弱。

如果 (X, Y) ~ p(x, y), X, Y 之间的互信息 I(X; Y)定义为:

Note: 互信息 I (X; Y)可为正、负或0。

互信息实际上是更广泛的相对熵的特殊情形

如果变量不是独立的,那么我们可以通过考察联合概率分布与边缘概率分布乘积之间的 Kullback-Leibler 散度来判断它们是否“接近”于相互独立。此时, Kullback-Leibler 散度为

这被称为变量 x 和变量 y 之间的互信息( mutual information )。根据 Kullback-Leibler 散度的性质,我们看到 I[x, y] ≥ 0 ,当且仅当 x 和 y 相互独立时等号成立。

使用概率的加和规则和乘积规则,我们看到互信息和条件熵之间的关系为

可以把互信息看成由于知道 y 值而造成的 x 的不确定性的减小(反之亦然)（即Y的值透露了多少关于X 的信息量）。

Y的熵指的是衡量的是Y的不确定度，Y分布得越离散，H(Y)的值越高

H(Y|X)则表示在已知X的情况下，Y的不确定度

所以，根据互信息公式的变形：

可以看出，I(X,Y)可以解释为由X引入而使Y的不确定度减小的量，这个减小的量为H(Y|X)

所以，如果X,Y关系越密切，I(X,Y)就越大

I(X,Y)最大的取值是H(Y)，此时H(Y|X)为0，意义为X和Y完全相关，在X确定的情况下Y是个定值，没有出现其他不确定情况的概率，所以为H(Y|X)为0

I(X,Y)取0时，代表X与Y独立，此时H(Y)=H(Y|X)，意义为X的出现不影响Y。。

性质

I(X;Y)的性质：
1）I(X;Y)⩾0
2）H(X)−H(X|Y)=I(X;Y)=I(Y;X)=H(Y)−H(Y|X)
3）当X,Y独立时，I(X;Y)=0，
4）当X,Y知道一个就能推断另一个时，I(X;Y)=H(X)=H(Y)

缺点

在做文本分类时，我们可能会判断一个词和某类的相关程度，但是计算时，未考虑词频的影响
（可以让互信息的结果再乘上tf-idf因子，从而将特征频率与特征分布考虑进去）

应用

1、文本自动摘要
2、两个词语同时出现的概率
PMI（点互信息），通过判断一个词分别与poor和excellent的互信息来判断这个词的情感倾向
这里写图片描述
3、特征提取时特征项与类别的关联程度

点互信息PMI（Pointwise Mutual Information）

PMI（Pointwise Mutual Information）这个指标来衡量两个事物之间的相关性（比如两个词）。

其原理很简单，公式如下：

在概率论中，我们知道，如果x跟y不相关，则。二者相关性越大，则就相比于越大。用后面的式子可能更好理解，在y出现的情况下x出现的条件概率除以x本身出现的概率，自然就表示x跟y的相关程度。这里的log来自于信息论的理论，可以简单理解为，当对取log之后就将一个概率转换为了信息量（要再乘以-1将其变为正数），以2为底时可以简单理解为用多少个bits可以表示这个变量。（更正式的解释请阅读信息论相关理论）

点互信息PMI其实就是从信息论里面的互信息这个概念里面衍生出来的。其衡量的是两个随机变量之间的相关性，即一个随机变量中包含的关于另一个随机变量的信息量。所谓的随机变量，即随机试验结果的量的表示，可以简单理解为按照一个概率分布进行取值的变量，比如随机抽查的一个人的身高就是一个随机变量。可以看出，互信息其实就是对X和Y的所有可能的取值情况的点互信息PMI的加权和，而点互信息只是对其中两个点进行相关性判断。因此，点互信息这个名字还是很形象的。

[点互信息（PMI，Pointwise Mutual Information） ]