python中文分词基础操作：jieba分词库(基础知识+实例)-CSDN博客

本文链接：https://blog.csdn.net/qq_44700820/article/details/113888346

jieba【中文分词操作】

jieba 库是什么

Jieba库是优秀的中文分词第三方库，中文文本需要通过分词获得单个的词语。
Jieba库的分词原理：利用一个中文词库，确定汉字之间的关联概率，汉字间概率大的组成词组，形成分词结果。除了分词，用户还可以添加自定义的词组。

jieba库的安装和导入

jieba库的安装使用的是pip 安装或者使用

# 使用pip 进行安装，在在控制台输入
pip install jieba

jieba 库的使用

Jieba库分词有3种模式

1）精确模式：

精确模式：就是把一段文本精确地切分成若干个中文单词，若干个中文单词之间经过组合，就精确地还原为之前的文本。其中不存在冗余单词。

jieba.icut(s) # 精确模式

2）全模式：

全模式：将一段文本中所有可能的词语都扫描出来，可能有一段文本它可以切分成不同的模式，或者有不同的角度来切分变成不同的词语，在全模式下，Jieba库会将各种不同的组合都挖掘出来。分词后的信息再组合起来会有冗余，不再是原来的文本。

jieba.icut(s,cut_all = ture) # 全模式

3）搜索引擎模式：

搜索引擎模式：在精确模式基础上，对发现的那些长的词语，我们会对它再次切分，进而适合搜索引擎对短词语的索引和搜索。也有冗余。

jieba.icut_for_sear(s) # 搜索引擎模式

4）jieba库常用函数：

Jieba库常用函数：重点记输入什么类型（字符串？列表？）、输出什么类型（字符串？列表？）；
添加用户词库方法：添加用户确认的不想被分词的词语

jieba.load_userdict（user.txt）

添加停用词库：删除掉用户不希望计入统计的词

def stopwordslist(): # 创建停用词库 
    stopwords = [line.strip() for line in open('stop_words.txt', encoding='UTF-8').readlines()]
    return stopwords # 返回停用词库

 stopwords = stopwordslist() # 调用停用词库