互信息是怎么互的？

阿喵要当程序员

已于 2024-01-31 08:35:48 修改

阅读量483

点赞数 7

文章标签：自然语言处理

于 2024-01-31 08:27:29 首次发布

本文链接：https://blog.csdn.net/mashutian/article/details/135945171

版权

本文介绍了熵和自信息的概念，强调了它们在衡量随机变量不确定性和消息信息量中的作用。随后讨论了互信息，用于评估两个随机变量之间的关系，包括独立性与相关性。点互信息则聚焦于特定点的关联性测量，尤其在自然语言处理中的应用，如单词相关性和情感分析。

摘要由CSDN通过智能技术生成

熵又称为自信息（self- information），用来衡量随机变量的不确定性，假设一个随机变量X代表赌场里轮盘上的数字，一个随机变量Y代表6面骰子的数字，X的熵大于Y的熵，因为Y只有1-6数字可以选择，X上有0，00，以及1-36号数字可以选择！明显不确定性更高！！在信息论里，香农用熵来度量每条消息中包含的信息、不确定性的平均水平，又可以定义为自信息的期望值（An equivalent definition of entropy is the expected value of the self-information of a variable）。

介绍完自信息，来看看互信息（mutual information），互信息是衡量同时采样的两个随机变量之间的关系的量，即一个随机变量透露了多少关于另一个随机变量的信息，两个随机变量之间的互信息为零意味着两个变量是独立的。比如X代表6面骰子的数字，Y代表抛掷的数字是否为偶数，此时Y的值能够告诉我们X的信息，反过来也可以，X和Y共享信息。可是如果Y是另一个6面骰子的数字，X和Y其实没得一点关系，此时互信息为0。

总的来说：互信息体现了两个变量之间的依赖程度，如果互信息大于0，表面X和Y高度相关；互信息为0，表明X和Y相互独立。如果互信息小于0，

下面我们来看看互信息的公式，根据熵的连锁规则：

$H(X,Y) =H(X) + H(Y|X) =H(Y) + H(X|Y)$

H(X)- H(X|Y) = H(Y) -H(Y|X)

这个差值就叫做X和Y的互信息，计作I(X;Y)，当我们对公式进行展开后，得到其表达式

I(X;Y)=H(X)- H(X|Y)

I(X;Y)=H(X)-(H(X,Y) -H(Y))

$I(X;Y)=H(X)+H(Y)-H(X,Y)$

$I(X;Y)=\sum p(x,y)log\frac{p(x,y)}{p(x)p(y)}$

由于 H(X|X)=0 ，所以

H(X)- H(X|X)=I(X;X) ，熵叫做自信息好像有那么些感觉了。

讲完互信息，那就要讲一下点互信息（pointwise mutual information）。互信息是对X和Y所有可能取值情况的加权和，点互信息只是对其中两个点进行判断，可用于衡量两个事物之间的相关性，公式为：

$PMI(X,Y) = log2\frac{p(x,y)}{(p(x)*p(y)}$

点互信息的应用非常广泛，在自然语言处理的任务里也大展手脚，比如，计算两个单词的相关性，假设p1是单词1的出现概率，p2是单词2的出现概率，p(1,2)是单词1和单词2的同时出现的概率，然后PMI(单词1，单词2)就是两者的相关性了，值越大越相关；为0时候不相关，如果小于0，指的是两个词不相关且互斥。也有处理是，如果小于0，直接取0值。其他的相关工作还有：

新词发现：https://courses.engr.illinois.edu/cs447/fa2018/Slides/Lecture17HO.pdf

词语的情感分析：

Based on SO-PMI Algorithm to Discriminate Sentimental Words' Polarity in TV Programs' Subjective Evaluation | IEEE Conference Publication | IEEE Xplore

https://www.sciencedirect.com/science/article/abs/pii/S1568494615007346

阿喵要当程序员

关注

7
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
互信息是怎么互的？

熵又称为自信息（self- information），用来衡量随机变量的不确定性，假设一个随机变量X代表赌场里轮盘上的数字，一个随机变量Y代表6面骰子的数字，X的熵大于Y的熵，因为Y只有1-6数字可以选择，X上有0，00，以及1-36号数字可以选择！点互信息的应用非常广泛，在自然语言处理的任务里也大展手脚，比如，计算两个单词的相关性，假设p1是单词1的出现概率，p2是单词2的出现概率，p(1,2)是单词1和单词2的同时出现的概率，然后PMI(单词1，单词2)就是两者的相关性了，值越大越相关；
复制链接

扫一扫