jieba库的三种分词模式
精确模式:将文本精确地切开,分词后无冗余,适合文本分词,最常用的分词模式。
jieba.cut(s) 精确模式,分词后返回一个迭代器,用for...in形式遍历结果
jieba.lcut(s) 精确模式,分词后返回一个列表
jieba.lcut("新时代中国特色社会主义")
输出结果:['新',‘时代’,‘中国’,‘特色’,‘社会主义’]
全模式:把文本中所有可能成词的词语都扫描出来,速度快,不能解决歧义。
jieba.cut(s, cut_all = True) 全模式,分词后返回一个迭代器,用for...in形式遍历结果
示例:
jieba.cut("新时代中国特色社会主义", cut_all = True)
jieba.lcut(s, cut_all = True) 全模式,分词后返回一个列表
示例:
jieba.lcut("新时代中国特色社会主义", cut_all = True)
输出结果:[‘新’,‘时代’,‘中国’,‘国特’,‘特色’,‘社会’,‘社会主义’,‘会主’,‘主义’]
搜索引擎模式:在精确模式的基础上,对长词再次切分,提高回召回率。
jieba.cut_for_search(s) 搜索引擎模式,分词后返回一个迭代器,用for...in形式遍历结果
示例:
jieba.cut_for_search(“新时代中国特色社会主义”)
jieba.lcut_for_search(s) 搜索引擎模式,分词后返回一个列表
示例:
jieba.lcut_for_search(“新时代中国特色社会主义”)
输出结果:['新','时代','中国','特色','社会','会主','主义',社会主义']
jieba.add_word(w): 向分词词典增加新词w
示例:
jiaba.add_word("蟒蛇语言")
jieba.lcut(“python也被称作蟒蛇语言”)
输出结果:['python','也','被称作',‘蟒蛇语言’]