python中文模糊关键词提取_Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略...

SnowNLP是一个Python库,专为处理中文文本设计,提供分词、词性标注、情感分析等功能。通过TextRank算法,可用于提取关键词和摘要。本文涵盖SnowNLP的简介、安装步骤、使用示例,以及如何进行训练。
摘要由CSDN通过智能技术生成

Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略

目录

SnowNLP的简介

SnowNLP的安装

SnowNLP的使用方法

关于训练


SnowNLP的简介

snowNLP是国人开发的python类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的。

snownlp主要可以进行中文分词(算法是Character-Based Generative Model)、词性标注、情感分析、文本分类(原理是朴素贝叶斯)、转换拼音、繁体转简体、提取文本关键词(原理TextRank)、提取摘要(原理TextRank)、分割句子、文本相似(原理BM25)。官网还有更多关于该库的介绍。

  • 中文分词(Character-Based Generative Model)
  • 词性标注(TnT 3-gram 隐马)
  • 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)
  • 文本分类(Naive Bayes)
  • 转换成拼音(Trie树实现的最大匹配)
  • 繁体转简体(Trie树实现的最大匹配)
  • 提取文本关键词(TextRank算法)
  • 提取文本摘要(TextRank算法)
  • tf,idf
  • Tokenization(分割成句子)
  • 文本相似(BM25)
  • 支持python3(感谢erning)

github:SnowNLP: Simplified Chinese Text Processing
snownlp pypi

SnowNLP的安装

pip install snownlp

f219f81d3cfb08fdd4438eb3e06bcbde.png

27deeb78986a2dbdbb143723af803e2f.png

0e57f27aee941147b7fa0c1f8d50a7f2.png

27deeb78986a2dbdbb143723af803e2f.png

SnowNLP的使用方法

45dc0a66f38755c76f0f672a6058fbe4.png

27deeb78986a2dbdbb143723af803e2f.png

文章推荐

NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→情感分析→测试)

关于训练

现在提供训练的包括分词,词性标注,情感分析,而且都提供了我用来训练的原始文件 以分词为例 分词在snownlp/seg目录下

from snownlp import seg seg.train('data.txt') seg.save('seg.marshal') # from snownlp import tag # tag.train('199801.txt') # tag.save('tag.marshal') # from snownlp import sentiment # sentiment.train('neg.txt', 'pos.txt') # sentiment.save('sentiment.marshal')

27deeb78986a2dbdbb143723af803e2f.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值