snownlp 中文文本情感分析、相似度计算、分词等

snownlp 官网:https://pypi.org/project/snownlp/

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了[TextBlob](https://github.com/sloria/TextBlob)的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。【貌似没有转化也行】

各个功能的相关原理:

* 中文分词([Character-Based Generative Model](http://aclweb.org/anthology//Y/Y09/Y09-2047.pdf))
* 词性标注([TnT](http://aclweb.org/anthology//A/A00/A00-1031.pdf) 3-gram 隐马)
* 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)
* 文本分类(Naive Bayes)
* 转换成拼音(Trie树实现的最大匹配)
* 繁体转简体(Trie树实现的最大匹配)
* 提取文本关键词([TextRank](http://acl.ldc.upenn.edu/acl2004/emnlp/pdf/Mihalcea.pdf)算法)
* 提取文本摘要([TextRank](http://acl.ldc.upenn.edu/acl2004/emnlp/pdf/Mihalcea.pdf)算法)
* tf,idf
* Tokenization(分割成句子)
* 文本相似([BM25](http://en.wikipedia.org/wiki/Okapi_BM25))
* 支持python3(感谢[erning](https://github.com/erning))

安装:

pip install snownlp

结合功能的简单实例:

# -*- coding: utf-8 -*-
from snownlp import SnowNLP

s = SnowNLP(u'这个东西真心很赞')

# 1.分词
print(s.words)
# ['这个', '东西', '真心', '很', '赞']

# 2.词性
tagslist = s.tags
for tage in tagslist:
    print(tage, end=',')
# ('这个', 'r'),('东西', 'n'),('真心', 'd'),('很', 'd'),('赞', 'Vg'),

# 3.情感打分
print(s.sentiments)
# 0.9769551298267365

# 4.获得每个字的拼音
print(s.pinyin)
# ['zhe', 'ge', 'dong', 'xi', 'zhen', 'xin', 'hen', 'zan']

# 5.繁体字转为简体字
s = SnowNLP(u'「繁體字」「繁體中文」的叫法在臺灣亦很常見。')
print(s.han)
# 「繁体字」「繁体中文」的叫法在台湾亦很常见。

text = u'''
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。
它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,
所以它与语言学的研究有着密切的联系,但又有重要的区别。
自然语言处理并不是一般地研究自然语言,
而在于研制能有效地实现自然语言通信的计算机系统,
特别是其中的软件系统。因而它是计算机科学的一部分。
'''
s = SnowNLP(text)

# 6.提取关键词
print(s.keywords(3) )
# ['语言', '自然', '计算机']

# 7.摘要抽取(关键句抽取)
print(s.summary(3))
# ['因而它是计算机科学的一部分', '自然语言处理是计算机科学领域与人工智能领域中的一个重要方向', '自然语言处理是一门融语言学、计算机科学、数学于一体的科学']

# 8.句子分割
senList = s.sentences  # 句子链表
for sen in senList:
    print(sen)
# 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向
# 它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法
# 自然语言处理是一门融语言学、计算机科学、数学于一体的科学
# 因此
# 这一领域的研究将涉及自然语言
# 即人们日常使用的语言
# 所以它与语言学的研究有着密切的联系
# 但又有重要的区别
# 自然语言处理并不是一般地研究自然语言
# 而在于研制能有效地实现自然语言通信的计算机系统
# 特别是其中的软件系统
# 因而它是计算机科学的一部分


s = SnowNLP([[u'这篇', u'文章'],
             [u'那篇', u'论文'],
             [u'这个', u'这个']])
# 9.计算tf值(即词频)
print(s.tf)
# [{'这篇': 1, '文章': 1}, {'那篇': 1, '论文': 1}, {'这个': 2}]

# 10.计算机idf值(即逆文档频率:可以用于tf-idf关键词提取)
print(s.idf)
# {'这篇': 0.5108256237659907, '文章': 0.5108256237659907, '那篇': 0.5108256237659907, '论文': 0.5108256237659907, '这个': 0.5108256237659907}

# 11.计算文本相似度
print(s.sim([u'文章']))  # 相似度
# [0.5108256237659907, 0, 0]
s = SnowNLP('即逆文档频率:关键词提取')
print(s.sim('文档'))  # 相似度
# [0, 0, 2.0368819272610397, 2.0368819272610397, 0, 0, 0, 0, 0, 0, 0, 0]

关于训练

不满意准确度,这个支持自己训练(本人暂未尝试)

现在提供训练的包括分词,词性标注,情感分析,而且都提供了用来训练的原始文件,GITHUB网址
以分词为例
分词在`snownlp/seg`目录下 

from snownlp import seg
seg.train('data.txt')
seg.save('seg.marshal')
#from snownlp import tag
#tag.train('199801.txt')
#tag.save('tag.marshal')
#from snownlp import sentiment
#sentiment.train('neg.txt', 'pos.txt')
#sentiment.save('sentiment.marshal')

这样训练好的文件就存储为`seg.marshal`了,之后修改`snownlp/seg/__init__.py`里的`data_path`指向刚训练好的文件即可

 

 

 

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ystraw_ah

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值