jieba库

最新推荐文章于 2025-03-09 10:46:14 发布

木星菜鸟

最新推荐文章于 2025-03-09 10:46:14 发布

阅读量1k

点赞数 9

文章标签：自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_81011594/article/details/136316146

版权

本文详细介绍了jieba库的三种分词模式（精确、全、搜索引擎），以及如何利用内置词库和自定义词典进行分词，强调了词频在自定义词库中的作用。作者分享了词库格式和分词原理，表明自定义词典对提高分词效果有积极作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文为自己这段时间学习jieba库的心得

1.jieba库函数

jieba.cut(s)——精确模式，返回一个可迭代数据类型

jieba.cut(s,cut_all='Ture')——全模式，输出文本s中可能的单词

jieba.cut_for_search(s)——搜索引擎模式，适合搜索引擎建立索引的分词结果

jieba.lcut(s)——精确模式，返回一个list

jieba.lcut(s,cut_all='Ture')——全模式，返回一个list

jieba.lcut_for_search(s)——搜索模式，返回list

jieba.add_word(s)——向分词词典中增加新词s

jieba.load_userdict(filepath)——添加自定义词库

ps:s为字符串

1.1. jieba可以分词模式可分为3种：精确模式、全模式、搜索引擎模式

精确模式：试图将句子最精准地切开，适合文本分析

全模式：把句子中所有的可以成词的词语都扫描出来，有歧义

搜索模式：基于精确模式，对长词再次切分，可提高召回率，适合搜索引擎分词

2.词库

2.1.jieba库依靠内置词库进行分词。

2.2.这个内置词库是可以查看的，通过print(jieba._file_)我们可以找到jieba库所在的位置，其中有个dict.txt文件，这个文件就是内置词库

2.3.如果分离不出自身想要的词，可以通过jieba.add_word(s)和jieba.load_userdict(filepath)来修改词库达成分离自己想要的词的目的。

2.4.

这是词库的内部词语的格式，以第一个为例，hau为要分词的词语，154564为词频，n为词性，词性部分也可以省略不写。据说添加自定义词库相当于扩充内置词库的词语量，自定义词库的优先级小于内置词库（这句话只是看有帖子这么说我也不知道对不对）

2.5.内置词库的分词原理

jieba库中自定义词典的词频含义，便于分出想要的词（自留笔记）_jieba自定义词典的格式-CSDN博客

这篇帖子讲的分词原理很有意思，让人耳目一新。不过我觉得总得来说词频越大越容易分出对应的词语也是站的住脚的，因为我这样做至今效果还是达到了的。

博客等级

码龄1年

3
原创

36
点赞

47
收藏

52
粉丝

关注

私信

热门文章

最新评论

代码总结——jieba分词
CSDN-Ada助手: 恭喜用户发布了第三篇博客！看到您总结了关于jieba分词的代码，让人不禁感叹您对技术的热爱和执着。希望您能继续保持创作的热情，不断分享您的学习心得和经验。下一步建议您可以尝试深入探讨jieba分词的原理和应用场景，或者结合其他分词工具进行比较分析，相信会为读者带来更多启发和收获。期待您更多精彩的文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。