jieba分词

最新推荐文章于 2021-05-04 19:37:11 发布

Zhen大虾

最新推荐文章于 2021-05-04 19:37:11 发布

阅读量209

点赞数

分类专栏： nlp 文章标签： jieba

nlp 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

一、分词功能

有三种分词模式：

cut(self,sentence,cut_all=False,HMM=True)--传入两个参数即可

默认模式即精确模式：jieba.cut(sentence)

全切模式：jieba.cut(sentence,cut_all=True)

搜索引擎模式：jieba.cut_for_research(sentence)---传入一个参数即可

注意：待分词的字符串可以是gbk,uni-code或utf-8

分词出来的形式是generator,可以通过list(jieba.cut())转化为list对象

可以使用精确模式

例子如下：

二、添加自定义词典

1.用以添加jieba词库中没有的新词，

jieba.load_userdict("filename"),括号中是文件的路径

文件格式适合为.txt文件，包含三个属性，每个词一行，词频率，（词性-可有可无）

结巴分词的整库https://raw.githubusercontent.com/fxsjy/jieba/master/jieba/dict.txt

三、提取关键词

jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse
setence为待提取的文本
topK为返回几个TF/IDF权重最大的关键词，默认值为20
示意链接https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py

四、使用停用词

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jieba分词

一、分词功能有三种分词模式：cut(self,sentence,cut_all=False,HMM=True)--传入两个参数即可默认模式即精确模式：jieba.cut(sentence)全切模式：jieba.cut(sentence,cut_all=True)搜索引擎模式：jieba.cut_for_research(sentence)---传入一个参数即可注意：待分词的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。