*Python*jieba库简单分词

        jieba 库是一个用 Python 编写的用于中文文本处理的开源库,它的主要功能是将连续的中文字符序列切分成一个个单独的词语。jieba 分词支持多种分词模式,并且可以方便地加载自定义词典,以提高分词的准确率。

1、安装jieba库

pip install jieba

2、精确模式
精确模式是最常用的分词模式,它会尽可能地切出有意义的词语。 

import jieba

sentence = "我来到北京清华大学"
words = jieba.cut(sentence, cut_all=False)
print(" | ".join(words))

  输出结果: 我 | 来到 | 北京 | 清华大学

3、全模式
全模式会将句子中所有可能的词语都切出来,适合搜索引擎做索引。

words = jieba.cut(sentence, cut_all=True)
print(" | ".join(words))

输出结果: 我 | 来到 | 北京 | 清华 | 华大 | 大学

4、搜索引擎模式
搜索引擎模式会尽可能地给出精确的切分结果,并适当考虑未登录词。

words = jieba.cut_for_search(sentence)
print(" | ".join(words))

输出结果: 我 | 来到 | 北京 | 清华 | 大学

5、自定义词典
为了提高分词准确性,可以向 jieba 加载自定义词典。

# 假设有一个自定义词典文件 custom_dict.txt
jieba.load_userdict("custom_dict.txt")

# 然后使用 jieba 正常分词即可
words = jieba.cut("我爱编程")
print(" | ".join(words))

输出结果: 我 | 爱 | 编程

6、应用方向

文本分析:如情感分析、主题建模等。
搜索引擎优化:通过分词提高搜索相关性。
机器翻译:作为预处理步骤,帮助翻译模型更好地理解文本。

       

        jieba 分词库为中文文本处理提供了强大的工具,无论是学术研究还是工业应用,都能发挥重要作用。通过上述介绍,相信你已经掌握了 jieba 的基本使用方法。

  • 18
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值