数据挖掘笔记-情感倾向点互信息算法

点互信息(PMI)用于衡量词语的语义相似度,而情感倾向点互信息(SO-PMI)算法则将其应用于情感分析。通过对褒义词和贬义词基准集合的PMI差值计算,确定词语的情感倾向,如正面、中性或负面。Java实现的SO-PMI算法示例可用于实际情感分析任务。
摘要由CSDN通过智能技术生成
       点间互信息(PMI)主要用于计算词语间的语义相似度,基 本思想是统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越紧 密,关联度越高。 两个词语word1与word2的PMI值计算公式如下式所示为:
P(word1&word2)表示两个词语word1与word2共同出现的概率,即word1与word2共同出现的文档数, P(word1)与P(word2)分别表示两个词语单独出现的概率,即word出现的文档数。若两个词语在数据集的某个小范围内共现概率越大,表明其关联度越大;反之,关联度越小。P(word1&word2)与P(word1)P(word2)的比值是word1与word2两个词语的统计独立性度量。 其值可以转化为3 种状态:
P(word1&word2) > 0 ;两个词语是相关的;值越大,相关性越强。 
P(word1&word2) = 0 ;两个词语是统计独立的,不相关也不互斥。
P(word1&word2) < 0 ;两个词语是不相关的,互斥的。
       情感倾向点互信息算法(Semantic Orientation Pointwise Mutual Information, SO-PMI)是
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值