最近在看代码的时候,发现论文用到了PPMI,索性这里记录一下两个概念:
PMI(点互信息)
用来衡量两个事物之间的相关性
公式如下
如何理解?
在概率论当中,如果说x与y两个变量无关,那么p(x,y)就等于p(x)p(y)
如果说x与y越相关,那么p(x,y)与p(x)p(y)的比值就越大
为了更好理解,这里有一个例子:
分母19是所有的词对共同出现的总次数(1+1+1+1+2+1+1+1+6+4)
这里的例子进行理解的时候,先是红色框的0.32,是根据当前词对(information,data)的次数6除以所有的词对数目(19)得来的
0.32 = 6/19
蓝色框的0.58是当前词,information的出现的总次数(11)除以总词对数(19)得来的
0.58=11/19
同理,绿色框也一样
PPMI(正点互信息)
正点互信息只是比点互信息多了一个判断最大值的操作,小于0的值都改成了0