python︱六款中文分词模块尝试:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP


**公众号“素质云笔记”定期更新博客内容:**
![这里写图片描述](https://imgconvert.csdnimg.cn/aHR0cDovL2ltZy5ibG9nLmNzZG4ubmV0LzIwMTgwMjI2MTU1MzQ4NTQ1?x-oss-process=image/format,png)

THULAC

四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验室)
四款都有分词功能,本博客只介绍作者比较感兴趣、每个模块的内容。jieba在这不做介绍,可见博客:
python+gensim︱jieba分词、词袋doc2bow、TFIDF文本挖掘

这里写图片描述
.


一、SnowNLP

只处理的unicode编码,所以使用时请自行decode成unicode。来源:https://github.com/isnowfy/snownlp
以下功能都是笔者比较感兴趣的:

情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)

  • 文本分类(Naive Bayes)
  • 转换成拼音(Trie树实现的最大匹配)
  • 繁体转简体(Trie树实现的最大匹配)
  • 提取

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 游动-白 设计师: 上身试试
应支付9.90元
点击重新获取
扫码支付

支付成功即可阅读