python之jieba库的使用,快速分词,词云必备

jieba库的三种分词模式

精确模式:将文本精确地切开,分词后无冗余,适合文本分词,最常用的分词模式。
	jieba.cut(s) 	精确模式,分词后返回一个迭代器,用for...in形式遍历结果
	jieba.lcut(s)	精确模式,分词后返回一个列表
			jieba.lcut("新时代中国特色社会主义")
			输出结果:['新',‘时代’,‘中国’,‘特色’,‘社会主义’]
全模式:把文本中所有可能成词的词语都扫描出来,速度快,不能解决歧义。
	jieba.cut(s, cut_all = True)	全模式,分词后返回一个迭代器,用for...in形式遍历结果
			示例:
			jieba.cut("新时代中国特色社会主义", cut_all = True)
	jieba.lcut(s, cut_all = True)	全模式,分词后返回一个列表
			示例:
			jieba.lcut("新时代中国特色社会主义", cut_all = True)
			输出结果:[‘新’,‘时代’,‘中国’,‘国特’,‘特色’,‘社会’,‘社会主义’,‘会主’,‘主义’]
搜索引擎模式:在精确模式的基础上,对长词再次切分,提高回召回率。
	jieba.cut_for_search(s)	搜索引擎模式,分词后返回一个迭代器,用for...in形式遍历结果
		示例:
		jieba.cut_for_search(“新时代中国特色社会主义”)
	jieba.lcut_for_search(s)	搜索引擎模式,分词后返回一个列表
		示例:
		jieba.lcut_for_search(“新时代中国特色社会主义”)
		输出结果:['新','时代','中国','特色','社会','会主','主义',社会主义']
jieba.add_word(w): 向分词词典增加新词w
示例:
	jiaba.add_word("蟒蛇语言")
	jieba.lcut(“python也被称作蟒蛇语言”)
	输出结果:['python','也','被称作',‘蟒蛇语言’]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值