jieba库的使用
jieba是Python中的一个非常重要的一个第三方中文分词函数库
因为jieba库是第三方函数库,需要通过下载才能引用,不会第三方库下载的可以参考我的之前的第三方库引用对的笔记
jieba库的概述
jieba(“结巴”)是Python中一个重要的第三方中文分词函数库
分词原理:jieba分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组。除了分词,jieba还提供增加自定义中文单词的功能
jieba库支持的三种分词模式
- 精确模式:将句子最精确地切开,适合文本分析
- 全模式:吧句子中所有可以成词的词语都扫描出来,速度非常快,但不能消除歧义
- 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词
jieba库解析
jieba库主要提供分词功能,可以赋值之定义分词字典
jieba库的主要函数
函数 | 描述 |
---|---|
jieba.cut(s) | 精确模式,返回一个可迭代的数据类型 |
jieba.cut(s, cut_all=Ture) | 全模式,输出文本s中所有可能的单词 |
jieba.cut_for_search(s) | 搜索引擎模式,适合搜索引擎建立索引的分词结果 |
jieba.lcut(s) | 精确模式,返回一个列表类型,建议使用 |
jieba.lcut(s, cut_all=Ture) | 全模式,返回一个列表类型,建议使用 |
jieba.lcut_for_search(s) | 搜索引擎模式,返回一个列表类型,建议使用 |
jieba.add_word(w) | 向分词词典中增加新词w |
三种推荐使用的函数的特点:
- jieba.lcut()函数返回精确模式,输出的分词能够完整且不多余地组成原始文本
- jieba.lcut(,Ture)函数返回全模式,输出原始文本中可能产生的所有问题,冗余性最大
- jieba.lcut_for_search()函数返回搜索 引擎模式,该模式首先执行精确模式,然后再对其中的长词进一步切分获得结果
实例:
b = jieba.lcut("我和我的牛马舍友")
c = jieba.lcut("什么是快乐星球")
print(b)
print(c)
print("===================================================================")
jieba.add_word("快乐星球")
c = jieba.lcut("什么是快乐星球")
print(c)
==================================================================================
结果:
['我', '和', '我', '的', '牛马', '舍友']
['什么', '是', '快乐', '星球']
===================================================================
['什么', '是', '快乐星球']