1、jieba分词的三种模式
全模式,分成尽可能多的词
import jieba
example = "结巴分词是个好东西,大家要好好学习。"
cut = jieba.cut(example, cut_all=True)
print(type(cut))
print(cut)
print(','.join(cut))
输出如下:
<class 'generator'>
<generator object Tokenizer.cut at 0x7fe6d414b780>
结巴,分词,是,个,好,东西,,,大家,要,好好,好好学,好好学习,好学,学习,,
精确模式
import jieba
example = "结巴分词是个好东西,大家要好好学习。"
cut = jieba.cut(example)
print(','.join(cut))
输出如下(cut的类型余全模式一样):
结巴,分词,是,个,好,东西,,,大家,要,好好学习,。
搜索模式
import jieba
example = "结巴分词是个好东西,大家要好好学习。"
cut = jieba.cut_for_search(example)
print(','.join(cut))
输出如下(cut类型不变):
结巴,分词,是,个,好,东西,,,大家,要,好好,好学,学习,好好学,好好学习,。
一般如果是文本预处理的话,选择精确模式。
2、结巴之获取词性
import jieba.posseg as psg
list = []
example = "结巴分词是个好东西,大家要好好学习。"
pairs = psg.cut(example)
print(pairs)
print(type(pairs))