【每日一个GitHub项目】jieba “结巴”Python中文分词

最新推荐文章于 2023-12-11 18:23:59 发布

kuchabuku

最新推荐文章于 2023-12-11 18:23:59 发布

阅读量849

点赞数

文章标签：自然语言处理人工智能 python

原文链接：https://github.com/fxsjy/jieba

版权

jieba

地址：https://github.com/fxsjy/jieba
作者：Sun Junyi

jiebaPython中文分词是我在做期末作业的时候，偶然找到的。
jieba和词云组合使用可以对文章进行分析，并取出高频词形成词云。
下图是我的期末作业，对最近大火的《隐秘的角落》原著小说《坏小孩》的分词加词云处理。
对《坏小孩》的高频词提取
jieba有四种分词模式

精确模式，会把句子最精确地切开，适合文本分析
全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词
paddle模式，利用PaddlePaddle深度学习框架，训练序列标注（双向GRU）网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny，pip install paddlepaddle-tiny==1.6.1。目前paddle模式支持jieba v0.40及以上版本。jieba v0.40以下版本，请升级jieba，pip install jieba --upgrade

jieba特点

有多种语言实现

关注