spark架构+nlpir分词方法+sql实现对每一位用户的情感分析,数据存储字段为最小粒度值。
需求:读取线上n个数据库中相应的表中的数据做关联然后处理完的结果写入对应的数据库新建表m中用于统计相应的租户相应的部门相应的用户在某一天或者某一月的情感分析统计
思路:读取租户id+部门id+用户id+年+月+日+积极词性个数+消极词性个数+中性词个数+情感结果(数据库中m表中的栏位),首先需要相应词库:积极词库,消极词库,否定词库,中性词库。
判断大致词性的思路;
总结一点:这个词是否是否定词,如果是的话,就读取下一个词next,如果next是积极那么久返回消极,反之亦然。最终情感分析的结果按照,一个日志中只要出现消极词就算消极,没有消极词有积极词的情况是积极,消极词语与积极词语都没有的话算为中性无情感。
分词方法:NLpir
spark架构(java)进行编写代码
(1)词库的路径以配置文件.xml的形式编写,可以快速读取
(2)广播变量直接把标准词库直接广播
xml以传参的形式给予。线上n个数据库也是如此。