点间互信息(PMI)主要用于计算词语间的语义相似度,基
本思想是统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越紧
密,关联度越高。
两个词语word1与word2的PMI值计算公式如下式所示为:
P(word1&word2)表示两个词语word1与word2共同出现的概率,即word1与word2共同出现的文档数, P(word1)与P(word2)分别表示两个词语单独出现的概率,即word出现的文档数。若两个词语在数据集的某个小范围内共现概率越大,表明其关联度越大;反之,关联度越小。P(word1&word2)与P(word1)P(word2)的比值是word1与word2两个词语的统计独立性度量。
其值可以转化为3 种状态:
P(word1&word2) > 0
;两个词语是相关的;值越大,相关性越强。
P(word1&word2) = 0
;两个词语是统计独立的,不相关也不互斥。
P(word1&word2) < 0
;两个词语是不相关的,互斥的。
情感倾向点互信息算法(Semantic Orientation Pointwise Mutual Information, SO-PMI)是