Python——＞jieba库的使用

最新推荐文章于 2024-03-21 13:36:33 发布

省级干饭王

最新推荐文章于 2024-03-21 13:36:33 发布

阅读量3.1k

点赞数 4

分类专栏： Python 笔记

本文链接：https://blog.csdn.net/qq_55016379/article/details/115676041

版权

笔记同时被 2 个专栏收录

94 篇文章 0 订阅

订阅专栏

Python

33 篇文章 4 订阅

订阅专栏

jieba库的使用

jieba是Python中的一个非常重要的一个第三方中文分词函数库

因为jieba库是第三方函数库，需要通过下载才能引用，不会第三方库下载的可以参考我的之前的第三方库引用对的笔记

jieba库的概述

jieba（“结巴”）是Python中一个重要的第三方中文分词函数库

分词原理：jieba分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组。除了分词，jieba还提供增加自定义中文单词的功能

jieba库支持的三种分词模式

精确模式：将句子最精确地切开，适合文本分析
全模式：吧句子中所有可以成词的词语都扫描出来，速度非常快，但不能消除歧义
搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词

jieba库解析

jieba库主要提供分词功能，可以赋值之定义分词字典

jieba库的主要函数

函数	描述
jieba.cut(s)	精确模式，返回一个可迭代的数据类型
jieba.cut(s, cut_all=Ture)	全模式，输出文本s中所有可能的单词
jieba.cut_for_search(s)	搜索引擎模式，适合搜索引擎建立索引的分词结果
jieba.lcut(s)	精确模式，返回一个列表类型，建议使用
jieba.lcut(s, cut_all=Ture)	全模式，返回一个列表类型，建议使用
jieba.lcut_for_search(s)	搜索引擎模式，返回一个列表类型，建议使用
jieba.add_word(w)	向分词词典中增加新词w

三种推荐使用的函数的特点：

jieba.lcut()函数返回精确模式，输出的分词能够完整且不多余地组成原始文本
jieba.lcut(,Ture)函数返回全模式，输出原始文本中可能产生的所有问题，冗余性最大
jieba.lcut_for_search()函数返回搜索引擎模式，该模式首先执行精确模式，然后再对其中的长词进一步切分获得结果

实例：

b = jieba.lcut("我和我的牛马舍友")
c = jieba.lcut("什么是快乐星球")
print(b)
print(c)
print("===================================================================")
jieba.add_word("快乐星球")
c = jieba.lcut("什么是快乐星球")
print(c)
==================================================================================
结果：
['我', '和', '我', '的', '牛马', '舍友']
['什么', '是', '快乐', '星球']
===================================================================
['什么', '是', '快乐星球']

省级干饭王

关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Python——＞jieba库的使用

jieba库的使用jieba是Python中的一个非常重要的一个第三方中文分词函数库因为jieba库是第三方函数库，需要通过下载才能引用，不会第三方库下载的可以参考我的之前的第三方库引用对的笔记jieba库的概述jieba（“结巴”）是Python中一个重要的第三方中文分词函数库分词原理：jieba分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组。除了分词，jieba还提供增加自定义中文单词的功能jieba库支持的三种分词模式精确模式：
复制链接

扫一扫