jieba是一个在中文自然语言处理中用的最多的工具包之一,它以分词起家,目前已经能够实现包括分词、词性标注以及命名实体识别等多种功能。既然Jieba是以分词起家,我们自然要首先学习Jieba的中文分词功能。Jieba提供了三种分词模式:
- 精确模式 : 在该模式下,Jieba会将句子进行最精确的切分
- 全模式 : 把句子中所有可以成词的词语都扫描出来,优点在于该模式非常快,缺点也很明显,就是不能有效解决歧义的问题
- 搜索引擎模式 :在精确模式的基础上,对长词进行再次切分,该模式适合用于搜索引擎构建索引的分词
import jiebaseg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("全模式: " + "/ ".join(seg_list)) # 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("精确模式: " + "/ ".join(seg_list)) # 精确模式seg_list = jieba.cut("我来到北京清华大学") # 默认是精确模式print(", ".join(seg_list))str = "我是一个中国人"word1 = jieba.cut_for_search(str) # 搜索引擎模式for item in word1: print(item)OUT:全模式: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学精确模式: 我/ 来到/ 北京/ 清华大学我, 来到, 北京, 清华大学我是一个中国人