python中jieba lcut_[python] jieba 模块

本文介绍了Python的jieba模块用于中文分词的基本使用,包括lcut()的精确模式和全模式,lcut_for_search()的搜索引擎模式,以及如何设置多进程分词以提高效率。
摘要由CSDN通过智能技术生成

在文本处理时,英文文本的分词一直比中文文本要好处理许多。因为英文文本只需要通过空格就可以分割,而中文的词语往往就很难从句子中分离出来。这种时候我们往往需要一个“词典”来实现分词,而寻找“词典”又是件非常麻烦的事。

不过, python 强大的第三方模块中早有了解决方案。在 PyPI 上面搜索“中文分词”,第一个出现的就是 jieba 模块。其实 jieba 模块的官方文档已经足够详细了,所以这里就对其进行一定的精简,只介绍几个常用的函数。

1. 使用 pip 安装 jieba 模块

在第一次使用时,我们需要先使用 pip 指令安装 jieba 这个第三方模块:

pip install jieba

2. lcut() – 最常用的分割模式

lcut() 这个函数只有简单的两个参数: lcut(s, cut_all=False) ,而它在切分后会返回一个字符串。其中 s 是传入的中文字符串,而 cut_all 这个参数默认为 False ,默认为“精确模式”,而如果设置为 True ,就是“全模式”。那么这两个模式有什么区别呢?我们可以查看下官方文档中的示例:

import jieba

seg_list = jieba.lcut("我来到北京清华大学", cut_all=True)

print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.lcut("我来到北京清华大学", cut_all=False)

print("Default Mode: " + "/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值