jieba()分词三种模式:精确模式、全模式、搜索引擎模式
精确模式:把文本精确的切分开,不存在冗余单词
全模式:把文本中所有可能的词语都扫描出来,有冗余
搜索引擎模式:在精度模式基础上,对长词再次切分
>>> import jieba
Traceback (most recent call last):
File "<pyshell#1>", line 1, in <module>
import jieba
ModuleNotFoundError: No module named 'jieba' #没有名为“jieba”的模块
#需要安装jieba()模块
#lcut(s)精确模式,返回一个列表类型
>>> import jieba
>>> ls = jieba.lcut('我正在学习Python!')
>>> ls
['我', '正在', '学习', 'Python', '!']
#lcut(s,cut_all=True)全模式,返回一个列表类型
>>> ls = jieba.lcut('我正在学习Python!',cut_all=True)
>>> ls
['我', '正在', '学习', 'Python', '']
#lcut_for_search(s)搜索引擎模式,返回一个列表
>>> ls = jieba.lcut_for_search('我正在学习Python!')
>>> ls
['我', '正在', '学习', 'Python', '!']
#add_word(w)向分词词典中增加新词w
>>> jieba.add_word('正在学习')
>>> ls = jieba.lcut('我正在学习Python!')
>>> ls
['我', '正在学习', 'Python', '!']