python分词库_Python分词库之jieba库的使用

本文介绍了Python中的分词库jieba,详细讲解了jieba的精确模式、全模式和搜索引擎模式,并探讨了其在SEO优化中的应用。同时,提到了jieba库的自定义分词功能,以及在项目中如何利用jieba.lcut_for_search()函数进行文章处理。
摘要由CSDN通过智能技术生成

上个月由于从之前的公司离职,到了新公司之后,工作上的事情很多,所以很久没更新博客了。这几天抽空更新几篇博客,将这两个月以来的经验分享给大家。

今天要说的是Python中的分词库——jieba库。最近一段时间由于公司电商部的需要,领导让我写个文章伪原创的小demo,主要是为了SEO优化而服务的。大家都知道,网站SEO做好了,能为公司省下一大笔开支。废话不多说,直接开讲!

jieba库(我称之为结巴库),是将一句或者一段话甚至是一篇文章按照它自己的词库分为若干个词语。jieba库主要有以下三种分词方式:

精确模式

所谓的精确模式就是把文本精确的切分开,不存在冗余单词。使用方法为jieba.cut(str),如:

str = "中华人民共和国"

str1 = jieba.cut(str)

1

2

str="中华人民共和国"

str1=jieba.cut(str)

全模式

全模式就是把文本中所有可能的词语都扫描出来,有冗余 。使用方法为jieba.cut(str, cut_all=True),如:

str = "中华人民共和国"

str1 = jieba.cut(str, cut_all=True)

1

2

str="中华人民共和国"

str1=jieba.cut(str,cut_all=True)

搜索引擎模式

这第三种是做SEO最常用的,其分词是在精确模式基础上,对长词再次切分。使用方法为jieba.cut_for_search(str),如:

str = "中华人民共和国"

str1 = jieba.cut_for_search(str)

1

2

str="中华人民共和国"

str1=jieba.cut_for_search(str)

当然,jieba库为什么说很强大呢?基于它强大的词库,可以为SEO、文章编辑等人员节省大量的时间。机器可以做的事为什么要用人去做呢?今天我也为大家整理了jieba库的几个常用的函数,如图:

Python之jieba库常用函数

我这个项目是为SEO而服务的,所以我项目中用到最多的函数是jieba.lcut_for_search(str)这个函数,给定一句话或者一个关键词之后,借助jieba库为我分词,然后循环分的词对数据库进行查询。大家可以根据自己的实际情况和需要去选择合适的。

这里提醒大家一下,如果你有某些词语不想被分开,jieba库也是支持自定义分词的。你可以指定哪些关键词忽略分词,你也可以添加你自己的词库。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值