最近在看文献时遇到了
PMI(Pointwise Mutual Information)
,中文名叫点互信息
.
概念与定义
PMI
这个指标通常用来衡量两个事物之间的相关性,比如两个词,其原理很简单,公式如下- P M I ( x ; y ) = log p ( x , y ) p ( x ) p ( y ) = log p ( x ∣ y ) p ( x ) = log p ( y ∣ x ) p ( y ) PMI(x;y) = \log\frac{p(x,y)}{p(x)p(y)} = \log\frac{p(x|y)}{p(x)} = \log\frac{p(y|x)}{p(y)} PMI(x;y)=logp(x)p(y)p(x,y)=logp(x)p(x∣y)=logp(y)p(y∣x)
- 在概率论中,如果
x
和y
不相关,则p(x,y) = p(x)p(y)
。如果二者相关性越大,则p(x,y)
就相比于p(x)p(y)
越大,那PMI也就越大。 - 从后面两个条件概率可能更好的解释,
p
(
x
∣
y
)
p
(
x
)
\frac{p(x|y)}{p(x)}
p(x)p(x∣y)越大,表明
x
和y
越相关 log
取自信息论中对概率的量化转换
NLP中使用PMI的一个简单例子
- 比如要衡量
like
这个词的极性(正向情感 or 负向情感)先选择一些正向情感词如good
,然后计算like
和good
的PMI
- P M I ( l i k e , g o o d ) = log p ( l i k e , g o o d ) p ( l i k e ) p ( g o o d ) PMI(like,good) = \log\frac{p(like,good)}{p(like)p(good)} PMI(like,good)=logp(like)p(good)p(like,good)
- 其中
p(like,good)
表示like
和good
在同一句话中出现的概率 = l i k e 和 g o o d 同 时 出 现 次 数 总 词 数 2 \frac{like和good同时出现次数}{总词数^2} 总词数2like和good同时出现次数,p(like)
表示like
出现概率,p(good)
表示good
出现概率 - PMI越大代表
like
正向情感倾向越明显