python jieba分词使用_jieba pseg-CSDN博客

本文链接：https://blog.csdn.net/qq_39290990/article/details/121348379

最近需要用到的结巴分词一些常用的函数，记录下

1. 分词功能

jieba.cut(text, cut_all, HMM)，接受三个输入参数: text需要分词的文本；cut_all =True采用全模式，cut_all=False采用精确模式；HMM 是否使用 HMM 模型。
jieba.cut_for_search（text, HMM），接受两个输入参数: text需要分词的文本；HMM 是否使用 HMM 模型。
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语
jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

分词代码示例：

import jieba

cut = jieba.cut("我随便写个北京河图创意图片有限公司", cut_all=True)
print("全模式: " + "/ ".join(cut))  # 全模式

cut = jieba.cut("我随便写个北京河图创意图片有限公司", cut_all=False)
print("精确模式: " + "/ ".join(cut))  # 精确模式

cut = jieba.cut("我随便写个北京河图创意图片有限公司")  # 默认是cut_all=False，精确模式
print("默认模式: "+"/ ".join(cut))

cut = jieba.cut_for_search("我随便写个北京河图创意图片有限公司")  # 搜索引擎模式
print("搜索引擎模式: "+"/ ".join(cut))

结果输出：

全模式: 我/ 随便/ 写/ 个/ 北京/ 河图/ 创意/ 意图/ 图片/ 有限/ 有限公司/ 公司
精确模式: 我/ 随便/ 写个/ 北京/ 河图/ 创意/ 图片/ 有限公司
默认模式: 我/ 随便/ 写个/ 北京/ 河图/ 创意/ 图片/ 有限公司
搜索引擎模式: 我/ 随便/ 写个/ 北京/ 河图/ 创意/ 图片/ 有限/ 公司/ 有限公司