最近研究了一阵子中文情感分析的一些paper,很感兴趣,于是最终决定写一个中文情感分析的工具。作为开源思想的忠实粉丝,我也献丑一次,把自己拙劣的代码呈现给大家,欢迎大家拍板砖。希望这个工具能给大家带来一些实际的用处。
目前,这个工具只实现了使用一种基本算法来预测文章的情感。经过本人测试,基本满足对中文句子的情感倾向分析,而且准确度可以信赖。大家如果有这个需求,想简单分析一下某个汉语评论集合的情感倾向,可以直接把这个工具拿去使用。
下面是这个工具的性能和准确度量化指标:
性能: 每秒处理约10万汉字
准确度: 约90%
本人会长期维护这个工具,并会逐步添加更多的预测算法,增加更多算法的选择。
Bitbucket库地址:https://bitbucket.org/shichaoqu/semantic-analysis-tool/overview
工具提供的功能:
1. 基于python-jieba中文分词包,对文章和句子进行分词;
2. 使用大连理工大学情感分析词库,对文章分词结果进行词语的情感预测;
3. 使用bsa_agorithm作为基本情感分析算法,基于词语的情感预测来聚合整个文章的情感倾向和情感强度。
TODO list:
1. 扩展情感词典,未来会添加hownet和ntsu情感词词库的支持,并添加响应的情感词定位接口;
2. 扩展情感分析算法,支持更多常见算法的选择,提供更精确的情感分析算法;
3. 情感信息抽取,提取观点持有者,主语和情感陈述,以及他们之间的关系。