jieba源代码分析——四种分词模式（一）

最新推荐文章于 2023-07-21 17:10:53 发布

叮叮咚咚乐呵呵

最新推荐文章于 2023-07-21 17:10:53 发布

阅读量1k

点赞数

文章标签： python 其他

本文链接：https://blog.csdn.net/qq_47229425/article/details/121737786

版权

本文介绍了jieba分词库的四种模式：精确模式、搜索引擎模式、全模式和paddle模式，并通过示例展示了不同模式的分词效果。jieba基于前缀词典和动态规划实现高效分词，同时对于未登录词，采用HMM模型进行处理。Tokenizer类中定义了不同分词模式的函数，首先构建前缀词典，然后生成有向无环图进行分词。

摘要由CSDN通过智能技术生成

2021SC@SDUSC
2021SC@SDUSC

在之前的TextRank算法的源代码解析中，我们所做的流程的第一步就是进行分词，使用到了cut函数（默认使用精确模式），但其实cut函数共有四种模式——精确模式、搜索引擎模式、全模式、paddle模式。
2021SC@SDUSC
2021SC@SDUSC
python分词主要是基于动态规划和其构成的前缀词典。
虽然同样都是分词，但四种模式在分词的精细度方面有所差异，比如看下面的例子：

import jieba

#默认精确模式
instance=jieba.cut("黄包车师傅总是吆喝两声接活，街边的糖炒栗子香气像雪在落")
print("精确模式：\t" + '/'.join(list(instance)))

#搜索引擎模式
instance=jieba.cut_for_search("黄包车师傅总是吆喝两声接活，街边的糖炒栗子香气像雪在落")
print("搜索引擎模式：\t" + '/'.join(list(instance)))

#全模式
instance=jieba.cut("黄包车师傅总是吆喝两声接活，街边的糖炒栗子香气像雪在落",cut_all=