python中jieba lcut_[python] jieba 模块

最新推荐文章于 2024-08-25 22:36:07 发布

男友范儿

最新推荐文章于 2024-08-25 22:36:07 发布

阅读量3.1k

点赞数

文章标签： python中jieba lcut

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28365523/article/details/113649411

版权

本文介绍了Python的jieba模块用于中文分词的基本使用，包括lcut()的精确模式和全模式，lcut_for_search()的搜索引擎模式，以及如何设置多进程分词以提高效率。

摘要由CSDN通过智能技术生成

在文本处理时，英文文本的分词一直比中文文本要好处理许多。因为英文文本只需要通过空格就可以分割，而中文的词语往往就很难从句子中分离出来。这种时候我们往往需要一个“词典”来实现分词，而寻找“词典”又是件非常麻烦的事。

不过， python 强大的第三方模块中早有了解决方案。在 PyPI 上面搜索“中文分词”，第一个出现的就是 jieba 模块。其实 jieba 模块的官方文档已经足够详细了，所以这里就对其进行一定的精简，只介绍几个常用的函数。

1. 使用 pip 安装 jieba 模块

在第一次使用时，我们需要先使用 pip 指令安装 jieba 这个第三方模块：

pip install jieba

2. lcut() – 最常用的分割模式

lcut() 这个函数只有简单的两个参数： lcut(s, cut_all=False) ，而它在切分后会返回一个字符串。其中 s 是传入的中文字符串，而 cut_all 这个参数默认为 False ，默认为“精确模式”，而如果设置为 True ，就是“全模式”。那么这两个模式有什么区别呢？我们可以查看下官方文档中的示例：

import jieba

seg_list = jieba.lcut("我来到北京清华大学", cut_all=True)

print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.lcut("我来到北京清华大学", cut_all=False)

print("Default Mode: " + "/

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。