熵又称为自信息(self- information),用来衡量随机变量的不确定性,假设一个随机变量X代表赌场里轮盘上的数字,一个随机变量Y代表6面骰子的数字,X的熵大于Y的熵,因为Y只有1-6数字可以选择,X上有0,00,以及1-36号数字可以选择!明显不确定性更高!!在信息论里,香农用熵来度量每条消息中包含的信息、不确定性的平均水平,又可以定义为自信息的期望值(An equivalent definition of entropy is the expected value of the self-information of a variable)。
介绍完自信息,来看看互信息(mutual information),互信息是衡量同时采样的两个随机变量之间的关系的量,即一个随机变量透露了多少关于另一个随机变量的信息, 两个随机变量之间的互信息为零意味着两个变量是独立的。比如X代表6面骰子的数字,Y代表抛掷的数字是否为偶数,此时Y的值能够告诉我们X的信息,反过来也可以,X和Y共享信息。可是如果Y是另一个6面骰子的数字,X和Y其实没得一点关系,此时互信息为0。
总的来说:互信息体现了两个变量之间的依赖程度,如果互信息大于0,表面X和Y高度相关;互信息为0,表明X和Y相互独立。如果互信息小于0,
下面我们来看看互信息的公式,根据熵的连锁规则:
这个差值就叫做X和Y的互信息,计作I(X;Y),当我们对公式进行展开后,得到其表达式
由于,所以
,熵叫做自信息好像有那么些感觉了。
讲完互信息,那就要讲一下点互信息(pointwise mutual information)。互信息是对X和Y所有可能取值情况的加权和,点互信息只是对其中两个点进行判断,可用于衡量两个事物之间的相关性,公式为:
点互信息的应用非常广泛,在自然语言处理的任务里也大展手脚,比如,计算两个单词的相关性,假设p1是单词1的出现概率,p2是单词2的出现概率,p(1,2)是单词1和单词2的同时出现的概率,然后PMI(单词1,单词2)就是两者的相关性了,值越大越相关;为0时候不相关,如果小于0,指的是两个词不相关且互斥。也有处理是,如果小于0,直接取0值。其他的相关工作还有:
新词发现:https://courses.engr.illinois.edu/cs447/fa2018/Slides/Lecture17HO.pdf
词语的情感分析:
https://www.sciencedirect.com/science/article/abs/pii/S1568494615007346