词之间的相关性--点互信息PMI算法

1. PMI介绍

点互信息算法是为了计算两个词语之间的相关性,公式如下:
PMI ⁡ (  word  1 ,  word  2 ) = log ⁡ 2 [ p (  word  1  &   word  2 ) p (  word  1 ) p (  word  2 ) ] \operatorname{PMI}\left(\text { word }_{1}, \text { word }_{2}\right)=\log _{2}\left[\frac{\mathrm{p}\left(\text { word }_{1} \text { \& } \text { word }_{2}\right)}{\mathrm{p}\left(\text { word }_{1}\right) \mathrm{p}\left(\text { word }_{2}\right)}\right] PMI( word 1, word 2)=log2[p( word 1)p( word 2)p( word 1 &  word 2)]

  • p(word1 & word2)代表的是两个单词同时出现的概率(两个单词同时出现的次数/总词数的平方)
  • p(word1)是word1出现的概率(word1出现的次数/总词数)
  • p(word2)是word2出现的概率(word1出现的次数/总词数)

结果:

  • PMI > 0;两个词语是相关的;值越大,相关性越强

  • PMI = 0;两个词语是统计独立的,不相关也不互斥

  • PMI < 0;两个词语是不相关的,互斥的

2. PMI应用

(1) 新词发现(判断一个词是否为词)
参考 pmi新词发现

(2)情感倾向点互信息算法(SO-PMI)
选用一组褒义词(Pwords)跟一组贬义词(Nwords)作为基准词。若把一个词语word1跟Pwords的点间互信息减去word1跟Nwords的点间互信息会得到一个差值,就可以根据该差值判断词语word1的情感倾向
S O (  phrase  ) = P M I (  phrase, ‘excellent’)  − P M I (  phrase, ‘poor’)  \begin{aligned} \mathrm{SO}(\text { phrase }) &=\mathrm{PMI}(\text { phrase, ‘excellent’) }\\ &-\mathrm{PMI}(\text { phrase, ‘poor’) } \end{aligned} SO( phrase )=PMI( phrase, ‘excellent’) PMI( phrase, ‘poor’) 

  • SO(phrase)>0 正面倾向,是褒义词

  • SO(phrase)=0 为中性词

  • SO(phrase)<0 为贬义词

参考

点互信息算法

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值