之前舆情项目的合作cp方提出有海外舆情监控的需求,原先的舆情系统的大部分功能都可以天然支持非中文语言,唯独在情感识别上,由于中英文语法和词库的不同,需要重新实现英文的情感识别算法。
考虑到现有项目中中文情感识别是基于规则和词库的(对比基于学习模型),基于现有的流式计算框架,决定采用类似的基于规则和词库的方法来实现英文情感识别是更合适的。再查阅了一些相关文献之后,决定基于vader方法来做。
vader是一种基于词库和语法规则来进行文本情感识别的方法,发表于2014年的AAAI会议。github地址:https://github.com/cjhutto/vaderSentiment。
论文中也提到了与基于学习模型方法的对比,后者主要存在需要大规模的训练集;训练和预测耗时和复杂度高;在一类文本中训练得到的模型无法很好的泛化处理其他类型文本的数据。此外,线上项目要求较高的precison,但学习模型有时会出现一些无法预测的低级错误分类,非常影响用户对于我们情感识别算法的准确性感官。以上这些原因也是我们此前中文情感识别采用基于规则模型所考虑的情况。
vader论文的干货主要集中在3.1和3.2节,总结如下:
vader词库的构建:
1 采用人工标注(10人)的方法为7000+的常用情感词(包括有形容词,名词,副词等)进行了情感极性及强度判定。从-4到+4表示从极度负面和极度正面情感。
2 区别与其他已提出的情感词典,