Python--Jieba进行中文分词(附代码)

Python–Jieba进行中文分词(附代码)

相信学习过python的人一定知道中文分词工具Jieba。在Jieba中,我们最熟悉的应该就是分词了,其实,除了分词之外,Jieba还有词性标注,提取关键词等功能。在这里,我要介绍的就是Jieba的分词功能和应用。
(jieba分词官方下载地址:https://github.com/fxsjy/jieba
(jieba官方网站下载速度可能较慢,可获取百度网盘链接进行下载。)

Jieba分词是结合了基于规则和基于统计两类方法的分词。它具有三种分词模式:
(1)精确模式:能够将句子精确的分开,适合做文本分析
(2)全模式:把句子中所有可能的词语都扫描出来,无法解决歧义问题
(3)搜索引擎模式:在精确模式的基础中,对长词再次进行切分,可以有效提高召回率。

三种模式的使用方法如下:

import jieba

sentence="你需要羽毛球拍吗?"

seg_list = jieba.cut(sentence,cut_all=True)
print("全模式:","/".join(seg_list))

seg_list = jieba.cut(sentence,cut_all=False)
print("精确模式:","/".join(seg_list))

seg_list = jieba.cut_for_search(sentence)
print("搜索引擎模式:","/".join(seg_list))

seg_list = jieba.cut(sentence)
print("默认模式:","/".join(seg_list))

运行结果如下:

  • 4
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值