分词
通过前面文章 利用jieba对中文进行分词 的介绍,我们知道jieba有三种分词模式:精确模式(jieba.cut(txt))、全模式( jieba.cut(txt,cut_all = True) )、搜索引擎模式( jieba.cut_for_search(txt) )。
其中,jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list(推荐使用该方式):
jieba.cut的形式
import jieba
cutwords = jieba.cut('小李没注意到刚才的电闪雷鸣') #默认精确模式
print( '分词结果:'+ "/ ".join(cutwords))
print([cutword for cutword in jieba.cut('小李没注意到刚才的电闪雷鸣')])
运行结果:
分词结果:小/ 李/ 没/ 注意/ 到/ 刚才/ 的/ 电闪雷鸣
['小', '李', '没', '注意', '到', '刚才', '