jieba库

本文详细介绍了jieba库的三种分词模式(精确、全、搜索引擎),以及如何利用内置词库和自定义词典进行分词,强调了词频在自定义词库中的作用。作者分享了词库格式和分词原理,表明自定义词典对提高分词效果有积极作用。
摘要由CSDN通过智能技术生成

本文为自己这段时间学习jieba库的心得

1.jieba库函数

jieba.cut(s)——精确模式,返回一个可迭代数据类型

jieba.cut(s,cut_all='Ture')——全模式,输出文本s中可能的单词

jieba.cut_for_search(s)——搜索引擎模式,适合搜索引擎建立索引的分词结果

jieba.lcut(s)——精确模式,返回一个list

jieba.lcut(s,cut_all='Ture')——全模式,返回一个list

jieba.lcut_for_search(s)——搜索模式,返回list

jieba.add_word(s)——向分词词典中增加新词s

jieba.load_userdict(filepath)——添加自定义词库

 ps:s为字符串

1.1. jieba可以分词模式可分为3种:精确模式、全模式、搜索引擎模式

精确模式:试图将句子最精准地切开,适合文本分析

全模式:把句子中所有的可以成词的词语都扫描出来,有歧义

搜索模式:基于精确模式,对长词再次切分,可提高召回率,适合搜索引擎分词

2.词库

2.1.jieba库依靠内置词库进行分词。

2.2.这个内置词库是可以查看的,通过print(jieba._file_)我们可以找到jieba库所在的位置,其中有个dict.txt文件,这个文件就是内置词库

2.3.如果分离不出自身想要的词,可以通过jieba.add_word(s)和jieba.load_userdict(filepath)来修改词库达成分离自己想要的词的目的。

2.4.

   这是词库的内部词语的格式,以第一个为例,hau为要分词的词语,154564为词频,n为词性,词性部分也可以省略不写。据说添加自定义词库相当于扩充内置词库的词语量,自定义词库的优先级小于内置词库(这句话只是看有帖子这么说我也不知道对不对)

2.5.内置词库的分词原理

jieba库中自定义词典的词频含义,便于分出想要的词(自留笔记)_jieba自定义词典的格式-CSDN博客

这篇帖子讲的分词原理很有意思,让人耳目一新。不过我觉得总得来说词频越大越容易分出对应的词语也是站的住脚的,因为我这样做至今效果还是达到了的。

  • 9
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值