NLP之路——Jieba库安装与使用

最新推荐文章于 2023-11-21 19:58:36 发布

没有蜂蜜的小蜜蜂

最新推荐文章于 2023-11-21 19:58:36 发布

阅读量442

点赞数

分类专栏： NLP之路文章标签：自然语言处理 nlp

本文链接：https://blog.csdn.net/AcStudio/article/details/106087451

版权

NLP之路专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在自然语言领域，分词是很重要的，虽然很多深度文本网络都会自动分词，但是理解分词很重要。下面讲解一个Jieba库的安装与使用
先安装一下jieba库
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba
以上是使用镜像的方法安装jieba库
在这里插入图片描述
安装完毕后测试一下

import jieba
print(jieba.__version__)
seg = jieba.cut("这是一段中文字符", cut_all  = False)
print(' '.join(seg))

结果显示
在这里插入图片描述
这一对红色的玩意我不知道是什么，反正没啥影响，不管了
下面对jieba的常用的三种不同模式进行测试

import jieba
#精确模式,试图将句子最精确地切开，适合文本分析
seg = jieba.cut("这是一段中文字符", cut_all  = False) print(' '.join(seg))
#全模式，把句子中所有的可以成词的词语都扫描出来，但是不能解决歧义
seg = jieba.cut("这是一段中文字符", cut_all  = True) print(' '.join(seg))
#搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。
seg =jieba.cut_for_search("这是一段关于结巴分词的中文句子")print(' '.join(seg))