python有一个中文分词工具叫Jieba

最新推荐文章于 2024-07-03 14:34:12 发布

洪宏鸿

最新推荐文章于 2024-07-03 14:34:12 发布

阅读量846

点赞数

分类专栏： python 文章标签： python 中文分词自然语言处理

本文链接：https://blog.csdn.net/HongZeng_CSDN/article/details/129903266

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Jieba是一个流行的Python库，用于中文文本处理，包括分词、自定义词典加载和关键词提取。通过jieba.cut()进行分词，使用load_userdict()加载自定义词典，以及analyse.extract_tags()提取文本关键词。

摘要由CSDN通过智能技术生成

Jieba是一个中文分词工具

Jieba是一个中文分词工具，它能够将中文文本切分成词语。以下是Jieba的入门用法：

安装jieba

您可以使用pip工具来安装jieba模块：

pip install jieba

分词

导入jieba模块，然后使用jieba.cut()函数将中文文本分词。jieba.cut()函数返回一个生成器，该生成器生成一个个分词结果。可以使用for循环来遍历分词结果。

import jieba

# 分词
text = '今天是个好日子，天气也不错。'
seg_list = jieba.cut(text)

# 遍历分词结果
for word in seg_list:
    print(word)

在这个例子中，我们使用jieba.cut()函数将文本分词，然后遍历分词结果并打印每个分词结果。

加载自定义词典可以通过add_word函数向jieba中添加自定义词汇。如果想要添加多个自定义词汇，可以将它们放在一个文本文件中，每个词汇占一行，然后使用load_userdict函数加载该文件。

自然语言处理
深度学习

jieba模块有一个默认的词典，但是有时候您可能需要加载自己的词典。您可以使用jieba.load_userdict()函数加载自定义词典。自定义词典应该是一个文本文件，每行包含一个词语和它的词频，用空格或制表符分隔。

import jieba

# 加载自定义词典
jieba.load_userdict('userdict.txt')

# 分词
text = '今天是个好日子，天气也不错。'
seg_list = jieba.cut(text)

# 遍历分词结果
for word in seg_list:
    print(word)

在这个例子中，我们使用jieba.load_userdict()函数加载自定义词典。自定义词典的文件名为“userdict.txt”。然后我们使用jieba.cut()函数将文本分词，并遍历分词结果。

关键词提取

jieba模块还提供了一个关键词提取的功能。可以使用jieba.analyse.extract_tags()函数从一段中文文本中提取关键词。该函数返回一个包含关键词的列表。

import jieba.analyse

# 关键词提取
text = '今天是个好日子，天气也不错。'
keywords = jieba.analyse.extract_tags(text)

# 打印关键词
print(keywords)

在这个例子中，我们使用jieba.analyse.extract_tags()函数从文本中提取关键词，并将结果存储在一个列表中，然后打印列表。

洪宏鸿

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python有一个中文分词工具叫Jieba

Jieba是一个中文分词工具
复制链接

扫一扫

专栏目录