jieba 使用笔记

最新推荐文章于 2023-03-27 00:30:00 发布

Chase_Ray

最新推荐文章于 2023-03-27 00:30:00 发布

阅读量2.1k

点赞数 8

分类专栏： NLP 文章标签： jieba

本文链接：https://blog.csdn.net/weixin_42498517/article/details/102767161

版权

本文详细介绍了jieba库的使用，包括初始化、分词模式、自定义词典、词性标注、关键词提取和Tokenize。重点讲解了精确模式、全模式和搜索引擎模式的分词，以及如何进行词性标注和自定义词典操作。同时，还介绍了如何通过jieba进行TF-IDF和TextRank关键词提取，以及jieba的Tokenize功能。

摘要由CSDN通过智能技术生成

安装： pip 即可

初始化

import jieba
import jieba.posseg  # 词性标注
import jieba.analyse  # 关键词
from jieba.analyse import ChineseAnalyzer  # 搜索引擎
# jieba.initialize()  # 手动初始化（可选）

分词 jieba.cut(sentence, cut_all , HMM)

cut_all= 参数用来控制分词模式 False 为精确模式 True为全模式
HMM= 参数用来控制是否使用 HMM 模型用于新词发现
jieba提供3种分词模式：

精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
并行分词(不支持win)
jieba.enable_parallel(2) # 开启并行分词模式，参数为并行进程数
jieba.disable_parallel() # 关闭并行分词模式
cut/cut_for_search 返回 generator
lcut/lcut_for_search 返回 list
为print更清晰易于比较使用 str.ljust()/center()/rjust()函数实现输出的字符串左对齐、居中、右对齐

default = jieba.cut('在南京市长江大桥研究生命的起源他来到了网易杭研大厦')  # 默认模式 默认cut_all=False, HMM=True
hmm = jieba.cut('在南京市长江大桥研究生命的起源他来到了网易杭研大厦', cut_all=False, HMM=True)

accurate = jieba.cut('在南京市长江大桥研究生命的起源他来到了网易杭研大厦', cut_all=False, HMM=False)  # 精确模式
full = jieba.cut('在南京市长江大桥研究生命的起源', cut_all=True)  # 全模式
search = jieba.cut_for_search('在南京市长江大桥研究生命的起源')  # 搜索引擎模式

default_list = jieba.lcut('在南京市长江大桥研究生命的起源')  # 返回list
search_list = jieba.lcut_for_search('在南京市长江大桥研究生命的起源')

# jieba.Tokenizer(dictionary=)  # 新建分词器
print('default'.rjust(