点互信息PMI(Pointwise Mutual Information)

最近在看文献时遇到了PMI(Pointwise Mutual Information),中文名叫点互信息.

概念与定义

  • PMI这个指标通常用来衡量两个事物之间的相关性,比如两个词,其原理很简单,公式如下
  • P M I ( x ; y ) = log ⁡ p ( x , y ) p ( x ) p ( y ) = log ⁡ p ( x ∣ y ) p ( x ) = log ⁡ p ( y ∣ x ) p ( y ) PMI(x;y) = \log\frac{p(x,y)}{p(x)p(y)} = \log\frac{p(x|y)}{p(x)} = \log\frac{p(y|x)}{p(y)} PMI(x;y)=logp(x)p(y)p(x,y)=logp(x)p(xy)=logp(y)p(yx)
  • 在概率论中,如果xy不相关,则p(x,y) = p(x)p(y)。如果二者相关性越大,则p(x,y)就相比于p(x)p(y)越大,那PMI也就越大。
  • 从后面两个条件概率可能更好的解释, p ( x ∣ y ) p ( x ) \frac{p(x|y)}{p(x)} p(x)p(xy)越大,表明xy越相关
  • log取自信息论中对概率的量化转换

NLP中使用PMI的一个简单例子

  • 比如要衡量like这个词的极性(正向情感 or 负向情感)先选择一些正向情感词如good,然后计算likegoodPMI
  • P M I ( l i k e , g o o d ) = log ⁡ p ( l i k e , g o o d ) p ( l i k e ) p ( g o o d ) PMI(like,good) = \log\frac{p(like,good)}{p(like)p(good)} PMI(like,good)=logp(like)p(good)p(like,good)
  • 其中p(like,good)表示likegood在同一句话中出现的概率 = l i k e 和 g o o d 同 时 出 现 次 数 总 词 数 2 \frac{like和good同时出现次数}{总词数^2} 2likegood,p(like)表示like出现概率,p(good)表示good出现概率
  • PMI越大代表like正向情感倾向越明显
  • 13
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值