python 文本分析库_SnowNLP:一个强大的python中文文本处理库

背景

笔者由于最近做一个监控应用评论内容的项目,为满足需求,需要对抓取下来的应用评论做中文语义识别,结果搜出来的大部分都是仅限英文语义识别的库,搜好久才找到这个国人开发的中文文本处理库(包含语义识别功能),特此介绍给大家。

安装

跟其他python类库一样,使用pip安装就行了

pip install snownlp

语义分析使用DEMO

# -*- coding: utf-8 -*-

#返回一段文本是积极的还是消极的

#@params: text

#@author: pyj 2017.03.24

#@return: 0~1 (语义积极的概率,越接近1情感表现越积极)

from snownlp import SnowNLP

import sys

if (len(sys.argv) != 2):

print u"请确认输入参数!"

else:

text = sys.argv[1].decode('utf-8')

s = SnowNLP(text)

print round(s.sentiments,2)

测试一哈

python test.py '真的很赞赞赞'

1.0

python test.py '我不知道说什么,太难用了,我给差评'

0.1

语义分析再训练

用的时候,有时候可能会觉得有些语句分析出来的结果会不太准确,这时候你就需要更新语料库,再进行训练,这样下次分析出来的结果就更加准确了。下面介绍一下如何进行训练

首先准备两份语料文本,neg.txt(负面语料文本) pos.txt(积极语料文本)

# -*- coding: utf-8 -*-

from snownlp import sentiment

sentiment.train('neg.txt', 'pos.txt')

sentiment.save('sentiment.marshal')

再次把生成好的sentiment.marshal放入类库的/sentiment 就可以了

试用效果如下,分析各渠道应用市场评论内容的情感:

60bd8d9b0a06

image.png

目前笔者也仅仅试用了情感分析的功能而已,其他功能欢迎读者自行试用,总之就是相当强大

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值