jieba是中文分词的一个模块,官方文档 jieba官方文档
1,分词
jieba分词常用的函数:
jieba.cut()
jieba.lcut()
jieba.cut_for_search()
jieba.lcut_for_search()
jieba.Tokenizer(dictionary=DEFAULT_DICT)
jieba.cut(sentence, cut_all=False, HMM=True) #默认参数
- sentence 需要分词的字符串;
- cut_all 参数用来控制是否采用全模式;
- HMM 参数用来控制是否使用 HMM 模型 ;隐马尔可夫模型
例如:
import jieba
text = '他远在江湖,却能名动帝辇,他是“麒麟之才,得之可得天下”。'
text1 = jieba.cut(text)
print(text1)
#<generator object Tokenizer.cut at 0x000001A5F0B20FC0>
text2 = jieba.lcut(text