词之间的相关性--点互信息PMI算法

1. PMI介绍

点互信息算法是为了计算两个词语之间的相关性,公式如下:
PMI ⁡ (  word  1 ,  word  2 ) = log ⁡ 2 [ p (  word  1  &   word  2 ) p (  word  1 ) p (  word  2 ) ] \operatorname{PMI}\left(\text { word }_{1}, \text { word }_{2}\right)=\log _{2}\left[\frac{\mathrm{p}\left(\text { word }_{1} \text { \& } \text { word }_{2}\right)}{\mathrm{p}\left(\text { word }_{1}\right) \mathrm{p}\left(\text { word }_{2}\right)}\right] PMI( word 1, word 2)=log2[p( word 1)p( word 2)p( word 1 &  word 2)]

  • p(word1 & word2)代表的是两个单词同时出现的概率(两个单词同时出现的次数/总词数的平方)
  • p(word1)是word1出现的概率(word1出现的次数/总词数)
  • p(word2)是word2出现的概率(word1出现的次数/总词数)

结果:

  • PMI > 0;两个词语是相关的;值越大,相关性越强

  • PMI = 0;两个词语是统计独立的,不相关也不互斥

  • PMI < 0;两个词语是不相关的,互斥的

2. PMI应用

(1) 新词发现(判断一个词是否为词)
参考 pmi新词发现

(2)情感倾向点互信息算法(SO-PMI)
选用一组褒义词(Pwords)跟一组贬义词(Nwords)作为基准词。若把一个词语word1跟Pwords的点间互信息减去word1跟Nwords的点间互信息会得到一个差值,就可以根据该差值判断词语word1的情感倾向
S O (  phrase  ) = P M I (  phrase, ‘excellent’)  − P M I (  phrase, ‘poor’)  \begin{aligned} \mathrm{SO}(\text { phrase }) &=\mathrm{PMI}(\text { phrase, ‘excellent’) }\\ &-\mathrm{PMI}(\text { phrase, ‘poor’) } \end{aligned} SO( phrase )=PMI( phrase, ‘excellent’) PMI( phrase, ‘poor’) 

  • SO(phrase)>0 正面倾向,是褒义词

  • SO(phrase)=0 为中性词

  • SO(phrase)<0 为贬义词

参考

点互信息算法

### 回答1: So-PMI扩充情感典程序是一种用于增强情感典的方法,它能够自动地从大规模的文本数据中,通过语的共现频率,计算出之间的关联程度,以此来补充情感典中的缺陷。 该程序的主要思路是以“so-pmi”(Simpson overlap Pointwise Mutual Information)算法为基础,通过计算文本中情感汇与其他之间的共现频率和相关性,然后通过加强相关性强的内在的情感色彩,进而增强情感典的效力。 该程序的应用场景非常广泛,包括社交媒体等大量文本数据的情感分析,以及服务于广告等领域的情感定位,通过不断更新和完善情感典,寻找出最能反映用户情感的汇,为营销者提供更加精准的关键。 在实际应用中,拥有一个完善的情感典对于情感分析的准确性和效率都非常重要,而So-PMI扩充情感典程序就为这一问题提供了一种新的解决方案。通过该程序的不断优化和迭代,将确保情感典的不断完善和更新,为用户提供更加精准、高效、全面的情感分析服务。 ### 回答2: So-PMI是基于互信息PMI算法的情感典扩充程序,用于识别文本中的情感极性(正面或负面),并且可以将其扩充到新的汇当中。 该程序的工作原理是分析单之间在语料库中出现的频率,计算出它们之间PMI值。如果某个汇与正面评价或负面评价汇的PMI值比其他一般汇高,那么该汇很有可能与情感极性相关。由此,程序可以通过PMI计算的方式来标记新的情感。 扩充了情感典之后,So-PMI程序可以更好地理解文本的情感含义,并提供更准确的情感分析。除了文本分析,So-PMI还可以应用于情感识别、舆情分析、社会媒体分析等多个领域。 总之,so-PMI扩充情感典程序是一种有效的情感分析工具,可以提高文本情感分析的准确性和覆盖面,具有广泛的应用前景。 ### 回答3: So-PMI是一种基于情感典的自然语言处理技术,其主要应用于对文本情感分析和情感分类。在传统的情感分析方法中,情感典是关键的组成部分,通过典中预先定义好的情感进行情感评估。然而,传统的方法只考虑了单一的情感极性,难以识别多义的不同情感,也无法识别出带有强烈或微弱情感的语。特别是在面对语言的多样性和情感隐含的情况下,传统方法可能会遇到困难。 So-PMI方法则通过一种基于单之间PMI互信息)的计算方法,对情感典进行扩展和更新。它利用论坛和新闻社交媒体的文本数据,将同一单和情感的共现频率和单独出现频率相比较,并计算单与情感间的PMI指标。这种方法解决了传统情感典中存在的单一情感问题,同时区分不同的极性和强度。因此,So-PMI扩充的情感典更加准确和全面,更适用于不同场景下的情感分析。 总之,So-PMI扩充情感典程序是一种基于单之间PMI的计算方法,能够有效改善传统情感分析方法的不足,提高情感分析的准确性和细粒度,并且已经在自然语言处理领域得到了广泛应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值