jieba分词的三种模式
- 精确模式:把文本精确的切分开,不存在冗余单词。
- 全模式:把文本中所有可能的词语都扫描出来,有冗余。
- 搜索引擎模式:在精确模式基础上,对长词再次切分。
jieba库的解析
- jieba.cut(s):精确模式,返回一个可迭代的数据类型,生成迭代器。
- jieba.cut(s,cut_all=True):全模式,输出文本s中所有可能的单词,生成迭代器。
- jieba.cut_for_search(s):搜索引擎模式,适合搜索,生成迭代器。
- jieba.lcut(s):精确模式,返回一个列表类型,建议使用。
- jieba.lcut(s,cut_all=True):全模式,返回一个列表类型,建议使用。
- jieba.lcut_for_search(s):搜索引擎模式,返回一个列表类型,建议使用。
- jieba.add_word(w):向分词词典中增加新词w。
- jieba.del_word(w):从分词词典中删除词w。
下面来试一下
import jieba
s='今天天气好冷,快出太阳'
jieba.lcut(s)
[‘今天天气’, ‘好’, ‘冷’, ‘,’, ‘快出’, ‘太阳’]
#有冗余
jieba.lcut(s,cut_all=True)
[‘今天’, ‘今天