jieba库的基本使用

本文介绍了jieba库的安装与使用,重点讲解了精准模式和全模式下的分词效果。精准模式力求每个词语最精确的切割,适合文本分析;全模式则将所有可成词的词语都提取出来,速度快但可能存在歧义。示例展示了两种模式下对‘我来到北京清华大学’的分词结果。
摘要由CSDN通过智能技术生成

安装 jieba 库:pip intall jieba
使用 jieba 库:import jieba

jieba.cut()

  • 返回词语组成的生成器

jieba.lcut()

  • 将返回的对象转化为list对象返回

参数:

  • sentence: 需要分词的字符串
  • cut_all: 参数用来控制是否采用全模式

精准模式(默认) cut_all=False:试图将句子最精确地切开,适合文本分析

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精准模式: " + "/ ".join(seg_list))  # 精确模式

# -----output-----
精准模式:/ 来到/ 北京/ 清华大学

全模式 cut_all=True:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式

# -----output-----
全模式:/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值