浅谈Python jieba分词

CN.LG

于 2024-08-28 08:45:19 发布

阅读量281

点赞数 13

分类专栏： Python 文章标签： python 开发语言

本文链接：https://blog.csdn.net/a876106354/article/details/141623856

版权

14 篇文章 0 订阅

订阅专栏

jieba 是一个中文分词库，它支持三种分词模式：精确模式、全模式和搜索引擎模式。

安装 jieba：

使用 pip 安装 jieba：

pip install jieba

导入库：

在 Python 脚本中导入 jieba：

import jieba

基本分词：

使用 jieba.cut 方法进行分词：

text = "我来到北京清华大学"
words = jieba.cut(text)
print("/ ".join(words))

添加自定义词典：

jieba 允许你添加自定义词典来提高分词的准确性：

jieba.load_userdict("userdict.txt")  # 载入自定义词典

调整词典：

你可以调整词典中的词语频率，以改变分词结果：

jieba.add_word('中清华', freq=5000, tag='nz')  # 添加词语及其频率和词性

精确模式：

精确模式将句子最精确地切分：

jieba.enable_only_full_mode()  # 启用全模式

全模式：

全模式将进行最全面的分词，速度较慢：

jieba.enable_all_words_mode()  # 启用全模式

搜索引擎模式：

搜索引擎模式在精确模式的基础上，对长词再次切分，适合用于搜索引擎构建索引：

jieba.enable_only_full_mode()  # 启用精确模式
jieba.cut_for_search(text)  # 对文本进行搜索引擎模式的分词

词性标注：

jieba 还可以进行词性标注：

words = jieba.cut("我来到北京清华大学")
for word, flag in jieba.posseg.cut(words):
    print('%s %s' % (word, flag))

调整词频：

可以调整词语的词频，以优化分词结果：

jieba.suggest_freq(('中', '北京'), True)  # 调整词语的词频

使用词典：

jieba 可以使用多种词典，包括 tf_idf、binary 和 hmm 词典：

jieba.load_dict('dict.txt')  # 加载自定义词典

jieba 分词库非常灵活，支持多种分词模式和自定义词典，适用于各种中文文本处理任务。如果你需要更详细的文档或示例，可以访问 jieba 的官方文档或 GitHub 仓库。

关注