Python：jieba中文分词的使用笔记

最新推荐文章于 2024-07-01 10:15:10 发布

彭世瑜

最新推荐文章于 2024-07-01 10:15:10 发布

阅读量1.2k

点赞数

本文为博主原创文章，欢迎转载，请注明出处

本文链接：https://blog.csdn.net/mouday/article/details/114291284

版权

文档：https://github.com/fxsjy/jieba

安装

pip install jieba

分词

cut/lcut(self, sentence, cut_all=False, HMM=True, use_paddle=False)

# 参数:
sentence   需要分词的字符串；
cut_all    参数用来控制是否采用全模式；
HMM        参数用来控制是否使用 HMM 模型；
use_paddle 参数用来控制是否使用paddle模式下的分词模式

切出了词典中没有的词语，效果不理想，可以关闭新词发现 HMM=False

自定义词典

格式：

词语、词频（可省略）、词性（可省略）

示例 user-dict.txt

创新办 3 i
云计算 5
凱特琳 nz
台中

载入词典

# 载入词典
jieba.load_userdict(file_name)

修改词典

# 动态修改词典
add_word(word, freq=None, tag=None)
del_word(word)

# 调节单个词语的词频
suggest_freq(segment, tune=True)

改变主词典的路径

# 加载自定义词典
jieba_token = jieba.Tokenizer(dictionary='user-dict.txt')

# 或者 手动初始化
jieba.initialize(dictionary='user-dict.txt')

# 或者 改变主词典的路径
jieba.set_dictionary('user-dict.txt')