jieba分词错误_jieba分词处理

最新推荐文章于 2022-09-28 16:41:15 发布

weixin_39915081

最新推荐文章于 2022-09-28 16:41:15 发布

阅读量889

点赞数 1

文章标签： jieba分词错误

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39915081/article/details/111919035

版权

jieba是一个常用的中文自然语言处理工具包，提供精确、全和搜索引擎模式的分词功能。通过`jieba.cut`、`jieba.cut_for_search`等方法进行分词，适用于文本处理和搜索引擎构建。此外，还介绍了如何安装jieba和使用示例。

摘要由CSDN通过智能技术生成

分词是一种数学上的应用，他可以直接根据词语之间的数学关系进行文字或者单词的抽象，比如，讲一句话“我来自地球上中国”进行单词分割，我们可能会得到如下的内容：“我”、“来自”、“地球上”、“中国”，这些就相当于是分词的概念，在我们搜索引擎开发的过程中，是必须要要使用到分词的概念的。

jieba简介

jieba是一个在中文自然语言处理过程中使用最多的工具包之一，目前能够实现包括分词、词性标注以及命名实体识别等多种功能，一般的，jieba为我们提供了以下三种分词模式：

·精确模式：将句子进行最精确的切分，分词速度相对较低，但是分词准确。

·全模式：基于此会列表，能够将所有的可以分词的词语都扫描出来，分词速度非常快，凡是不能解决歧义性。

·搜索引擎模式：在精确模式的基础上，对长词进行在切分，适合在搜索引擎中进行监理索引进行的分词。

常用的方法有：

·`jieba.cut` 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型

· `jieba.cut_for_search` 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

· 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8

· `jieba.cut` 以及 `jieba.

最低0.47元/天解锁文章

weixin_39915081

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。