Pythonjieba库简单分词

最新推荐文章于 2024-09-10 13:01:50 发布

弥十一

最新推荐文章于 2024-09-10 13:01:50 发布

阅读量461

点赞数 18

文章标签： python 开发语言

本文链接：https://blog.csdn.net/m0_57916248/article/details/141951998

版权

jieba 库是一个用 Python 编写的用于中文文本处理的开源库，它的主要功能是将连续的中文字符序列切分成一个个单独的词语。jieba 分词支持多种分词模式，并且可以方便地加载自定义词典，以提高分词的准确率。

1、安装jieba库

pip install jieba

2、精确模式
精确模式是最常用的分词模式，它会尽可能地切出有意义的词语。

import jieba

sentence = "我来到北京清华大学"
words = jieba.cut(sentence, cut_all=False)
print(" | ".join(words))

输出结果: 我 | 来到 | 北京 | 清华大学

3、全模式
全模式会将句子中所有可能的词语都切出来，适合搜索引擎做索引。

words = jieba.cut(sentence, cut_all=True)
print(" | ".join(words))

输出结果: 我 | 来到 | 北京 | 清华 | 华大 | 大学

4、搜索引擎模式
搜索引擎模式会尽可能地给出精确的切分结果，并适当考虑未登录词。

words = jieba.cut_for_search(sentence)
print(" | ".join(words))

输出结果: 我 | 来到 | 北京 | 清华 | 大学

5、自定义词典
为了提高分词准确性，可以向 jieba 加载自定义词典。

# 假设有一个自定义词典文件 custom_dict.txt
jieba.load_userdict("custom_dict.txt")

# 然后使用 jieba 正常分词即可
words = jieba.cut("我爱编程")
print(" | ".join(words))

输出结果: 我 | 爱 | 编程

6、应用方向

文本分析：如情感分析、主题建模等。
搜索引擎优化：通过分词提高搜索相关性。
机器翻译：作为预处理步骤，帮助翻译模型更好地理解文本。

jieba 分词库为中文文本处理提供了强大的工具，无论是学术研究还是工业应用，都能发挥重要作用。通过上述介绍，相信你已经掌握了 jieba 的基本使用方法。

关注