python之jieba库的使用，快速分词，词云必备

最新推荐文章于 2024-03-21 13:36:33 发布

warm...

最新推荐文章于 2024-03-21 13:36:33 发布

阅读量2.3k

点赞数 1

分类专栏：数据分析及可视化文章标签： python

本文链接：https://blog.csdn.net/qq_46292926/article/details/105100656

版权

数据分析及可视化专栏收录该内容

6 篇文章 5 订阅

订阅专栏

jieba库的三种分词模式

精确模式：将文本精确地切开，分词后无冗余，适合文本分词，最常用的分词模式。

	jieba.cut(s) 	精确模式，分词后返回一个迭代器，用for...in形式遍历结果
	jieba.lcut(s)	精确模式，分词后返回一个列表
			jieba.lcut("新时代中国特色社会主义")
			输出结果：['新'，‘时代’，‘中国’，‘特色’，‘社会主义’]

全模式：把文本中所有可能成词的词语都扫描出来，速度快，不能解决歧义。

	jieba.cut(s, cut_all = True)	全模式，分词后返回一个迭代器，用for...in形式遍历结果
			示例：
			jieba.cut("新时代中国特色社会主义", cut_all = True)
	jieba.lcut(s, cut_all = True)	全模式，分词后返回一个列表
			示例：
			jieba.lcut("新时代中国特色社会主义", cut_all = True)
			输出结果：[‘新’，‘时代’，‘中国’，‘国特’，‘特色’，‘社会’，‘社会主义’，‘会主’，‘主义’]

搜索引擎模式：在精确模式的基础上，对长词再次切分，提高回召回率。

	jieba.cut_for_search(s)	搜索引擎模式，分词后返回一个迭代器，用for...in形式遍历结果
		示例：
		jieba.cut_for_search(“新时代中国特色社会主义”)
	jieba.lcut_for_search(s)	搜索引擎模式，分词后返回一个列表
		示例：
		jieba.lcut_for_search(“新时代中国特色社会主义”)
		输出结果：['新'，'时代'，'中国'，'特色'，'社会'，'会主'，'主义'，社会主义']

jieba.add_word(w): 向分词词典增加新词w

示例：
	jiaba.add_word("蟒蛇语言")
	jieba.lcut(“python也被称作蟒蛇语言”）
	输出结果：['python','也'，'被称作'，‘蟒蛇语言’]

warm...

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录