2021SC@SDUSC
2021SC@SDUSC
在之前的TextRank算法的源代码解析中,我们所做的流程的第一步就是进行分词,使用到了cut函数(默认使用精确模式),但其实cut函数共有四种模式——精确模式、搜索引擎模式、全模式、paddle模式。
2021SC@SDUSC
2021SC@SDUSC
python分词主要是基于动态规划和其构成的前缀词典。
虽然同样都是分词,但四种模式在分词的精细度方面有所差异,比如看下面的例子:
import jieba
#默认精确模式
instance=jieba.cut("黄包车师傅总是吆喝两声接活,街边的糖炒栗子香气像雪在落")
print("精确模式:\t" + '/'.join(list(instance)))
#搜索引擎模式
instance=jieba.cut_for_search("黄包车师傅总是吆喝两声接活,街边的糖炒栗子香气像雪在落")
print("搜索引擎模式:\t" + '/'.join(list(instance)))
#全模式
instance=jieba.cut("黄包车师傅总是吆喝两声接活,街边的糖炒栗子香气像雪在落",cut_all=