python中jieba库的基本知识及使用(cut lcut add_word del_word )
一、jieba库是python中的第三方库,而非标准库
因此需要在设置中或者pip安装哦
// An highlighted block
pip install jieba
二.cut方法注意点
1.打印对象
在使用jieba库的cut方法时,返回的是一个可以迭代的生成器,这意味着数据是一个一个返回的不是一次性返回的,所以不可以直接print生成器哦
以下是错误代码演示:
import jieba
txt="没有常春树做自由自在的花"
datas=jieba.cut(txt,cut_all=False)
print(datas)
这段代码输出结果将会是是生成器的信息而非数据哦:
// An highlighted block
<generator object Tokenizer.cut at 0x021FBE60>
(具体原因:这段代码的输出结果是 <generator object Tokenizer.cut at 0x021FBE60> 是因为 jieba.cut 方法默认返回的是一个生成器对象,而不是一个包含分词结果的列表。生成器是一种特殊的迭代器,它可以在迭代过程中逐个生成元素,而不是一次性地计算所有元素,这有助于节省内存。)
2.关于cut_all参数
当cut_all参数为True时 为全模式,会把所有可能的分词都分出来,因此可能会导致数据冗余
而当cut_all参数为False时为精确模式,不会造成过多的数据冗余。推荐~