snownlp为python版的文本分析工具,ubuntu安装snownlp命令为:pip install snownlp。
利用snownlp可以进行分词、词性标注、文本摘要提取、文本情感分析等,下面贴出snownlp分词、词性标注、情感分析代码如下:
from snownlp import SnowNLP
s = SnowNLP(u'这个东西真心很赞')
key=s.words # [u'这个', u'东西', u'真心',
# u'很', u'赞']
pos=s.tags # [(u'这个', u'r'), (u'东西', u'n'),
# (u'真心', u'd'), (u'很', u'd'),
# (u'赞', u'Vg')]
sentiment=s.sentiments
情感分析简单的将句子分为两类,积极和消极,即预测输入句子属于积极和消极的概率,sentiment属于[0,1]。
同时,我们可以使用自己的训练数据训练模型,python分词、词性标注、情感分析训练代码如下:from snownlp import seg
seg.train('data.txt')
seg.save('seg.marshal')#保存模型
from snownlp import tag
tag.train('199801.txt')
tag.save('tag.marshal')
from snownlp import sentiment
sentiment.train('neg.txt', 'pos.txt')
sentiment.save('sentiment.marshal')
对于分词的原理、词性标注的原理,具体空间github:https://github.com/isnowfy/snownlp