点互信息pmi

由于在文本处理中会用到互信息所以做一下总结

pmi(Pointwise Mutual Information):

pmi(a,b) = log\frac{p(a,b)}{p(a)p(b)}

= log\frac{p(a|b)}{p(a)} = log\frac{p(b|a)}{p(b)}

如果a和b不相关值为1。当ab条件独立时,p(a|b) = p(a)此时pmi为0。

如果ab的联合概率越大则该值越大。

在文本处理中经常会遇到计算pmi

其中 p(a,b) 为 a和b共现的次数/总字符数(如果ab均代表字符的情况下也就是unigram)

p(a) 为 a出现的次数/总字符数,p(b) 为b出现的次数/总字符数

这里联合概率是存在一些问题的因为p(a,b) = p(b,a) 但实际文本处理过程中a和b两个字符存在顺序。

参考文献:

互联网时代的社会语言学:基于SNS的文本数据挖掘 | Matrix67: The Aha Moments

新词发现的信息熵方法与实现 - 科学空间|Scientific Spaces

点互信息和互信息 PMI - 简书

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值