一、分词功能
有三种分词模式:
cut(self,sentence,cut_all=False,HMM=True)--传入两个参数即可
默认模式即精确模式:jieba.cut(sentence)
全切模式:jieba.cut(sentence,cut_all=True)
搜索引擎模式:jieba.cut_for_research(sentence)---传入一个参数即可
注意:待分词的字符串可以是gbk,uni-code或utf-8
分词出来的形式是generator,可以通过list(jieba.cut())转化为list对象
可以使用精确模式
例子如下:
二、添加自定义词典
1.用以添加jieba词库中没有的新词,
jieba.load_userdict("filename"),括号中是文件的路径
文件格式适合为.txt文件,包含三个属性,每个词一行,词频率,(词性-可有可无)
结巴分词的整库https://raw.githubusercontent.com/fxsjy/jieba/master/jieba/dict.txt
三、提取关键词
-
jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse
-
setence为待提取的文本
-
topK为返回几个TF/IDF权重最大的关键词,默认值为20
-
示意链接https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py