结巴分词优点_“结巴”中文分词：做最好的 Python 中文分词组件

最新推荐文章于 2023-09-28 21:06:24 发布

带笑子

最新推荐文章于 2023-09-28 21:06:24 发布

阅读量1.3k

点赞数

文章标签：结巴分词优点

本文链接：https://blog.csdn.net/weixin_36463451/article/details/112746113

版权

jieba是一个在中文自然语言处理中用的最多的工具包之一，它以分词起家，目前已经能够实现包括分词、词性标注以及命名实体识别等多种功能。既然Jieba是以分词起家，我们自然要首先学习Jieba的中文分词功能。Jieba提供了三种分词模式：

精确模式：在该模式下，Jieba会将句子进行最精确的切分
全模式：把句子中所有可以成词的词语都扫描出来，优点在于该模式非常快，缺点也很明显，就是不能有效解决歧义的问题
搜索引擎模式：在精确模式的基础上，对长词进行再次切分，该模式适合用于搜索引擎构建索引的分词

import jiebaseg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("全模式: " + "/ ".join(seg_list))  # 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("精确模式: " + "/ ".join(seg_list))  # 精确模式seg_list = jieba.cut("我来到北京清华大学")  # 默认是精确模式print(", ".join(seg_list))str = "我是一个中国人"word1 = jieba.cut_for_search(str)  # 搜索引擎模式for item in word1:    print(item)OUT:全模式: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学精确模式: 我/ 来到/ 北京/ 清华大学我, 来到, 北京, 清华大学我是一个中国人

最低0.47元/天解锁文章

带笑子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
结巴分词优点_“结巴”中文分词：做最好的 Python 中文分词组件

jieba是一个在中文自然语言处理中用的最多的工具包之一，它以分词起家，目前已经能够实现包括分词、词性标注以及命名实体识别等多种功能。既然Jieba是以分词起家，我们自然要首先学习Jieba的中文分词功能。Jieba提供了三种分词模式：精确模式：在该模式下，Jieba会将句子进行最精确的切分全模式：把句子中所有可以成词的词语都扫描出来，优点在于该模式非常快，缺点也很明显，就是不能有效解决歧...
复制链接

扫一扫