简述
在最近的RA过程中,需要使用一个库,同时对其的原理需要理解。然后就研究了一些,发现了几个有趣的,其中一个HarvestText中文情感分析。
- 我研究了他的源码后,再结合理论知识发现了这个库在情感分析上的一个很重要的问题。并提交了代码,完成了合并。下面是我的fork后的库
- https://github.com/Sean16SYSU/HarvestText
SO-PMI算法
- 输入:文章集合。pos词汇集和neg词汇集(不需要给分数)
- 输出:未知词汇的分数
PMI
- PMI,Pointwise Mutual Information, 即点互信息, log 2 P ( A , B ) P ( A ) P ( B ) \log_2\frac{P(A, B)}{P(A)P(B)} log