python--jiaba库的基本使用

AI_茗

已于 2024-06-28 15:57:49 修改

阅读量287

点赞数 15

文章标签： windows python nlp

于 2024-06-27 11:32:49 首次发布

本文链接：https://blog.csdn.net/m0_71212744/article/details/140008955

版权

jieba 是一个用于中文分词的 Python 库。它使用基于统计的词典分词方法，能够支持三种分词模式：精确模式、全模式、搜索引擎模式，并且支持繁体分词和自定义词典。

以下是 jieba 库的基本使用步骤：

安装

首先，你需要安装 jieba 库。如果你还没有安装，可以通过 pip 来安装：

pip install jieba

import jieba  
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)  
print("Default Mode: " + "/ ".join(seg_list))  # 输出: 我/ 来到/ 北京/ 清华大学

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)  
print("Full Mode: " + "/ ".join(seg_list))  # 输出: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

seg_list = jieba.cut_for_search("我来到北京清华大学", cut_all=False)  
print("Search Engine Mode: " + "/ ".join(seg_list))  # 输出: 我/ 来到/ 北京/ 清华/ 华大/ 大学/ 清华大学

你可以通过 jieba.load_userdict(file_name) 函数来加载自定义词典。词典的每一行是一个词，词的后面是词频和词性（可省略），用空格隔开。

例如，假设你有一个名为 userdict.txt 的词典文件，内容如下：

清华大学 1 n  
北京大学 1 n

你可以这样加载它：

jieba.load_userdict('userdict.txt')  
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)  
print(" ".join(seg_list))  # 输出: 我/ 来到/ 北京/ 清华大学

jieba 还提供了很多其他功能，如词性标注、关键词提取、并行分词等。

注意：在使用 jieba 时，请确保 Python 环境已经正确安装并配置了 jieba 库。

关注