python之jieba使用方法

系列文章目录

分词

自定义词典

关键词提取


提示:需要安装jieba


前言

jieba可对中文进行系列操作


一、分词

import jieba

sentence = '现在我在广州天河区'
# 精准输出切分结果,速度慢
list1 = jieba.cut(sentence, cut_all=False, HMM=True)
print('/'.join(list1))
# 全模式,速度快
list2 = jieba.cut(sentence, cut_all=True, HMM=True)
print('/'.join(list2))
# 搜索模式
list3 = jieba.cut(sentence, HMM=True)
print('/'.join(list3))

二、自定义字典

import jieba
sentence='广州3号线是世界上最拥挤的地铁线路'
# jieba.load_userdict('userdict.txt')
list1=jieba.cut(sentence)
print(list(list1))

import jieba
sentence='广州3号线是世界上最拥挤的地铁线路'
jieba.load_userdict('userdict.txt')
list1=jieba.cut(sentence)
print(list(list1))

 

 userdict.txt内的内容

三、关键词提取

import jieba.analyse

sentence = '我国继续保持世界第二大经济体的地位,经济稳健发展,全年国内生产总值预计超过120万亿元。面对全球粮食危机,我国粮食生产实现“十九连丰”,中国人的饭碗端得更牢了。我们巩固脱贫攻坚成果,全面推进乡村振兴,采取减税降费等系列措施为企业纾难解困,着力解决人民群众急难愁盼问题。疫情发生以来,我们始终坚持人民至上、生命至上,坚持科学精准防控,因时因势优化调整防控措施,最大限度保护了人民生命安全和身体健康。广大干部群众特别是医务人员、基层工作者不畏艰辛、勇毅坚守。经过艰苦卓绝的努力,我们战胜了前所未有的困难和挑战,每个人都不容易。目前,疫情防控进入新阶段,仍是吃劲的时候,大家都在坚忍不拔努力,曙光就在前头。大家再加把劲,坚持就是胜利,团结就是胜利。'
# 基于TF-IDF算法
list1 = jieba.analyse.extract_tags(sentence, topK=5, withWeight=False, allowPOS=(), withFlag=False)
# topK 返回最大权重关键词的个数,None表示全部,默认值20
# withWeight表示是否返回权重,返回(word,weight)的list,默认值为False
# allowPOS仅包括指定词性的词,默认为空
print(list1)
# 基于TextRank算法
list2 = jieba.analyse.textrank(sentence, topK=5, withWeight=False, allowPOS=('ns', 'n', 'v'), withFlag=False)
# 与TF-IDF方法相似,但是注意allowPOS有默认值,即会默认过滤某些词性
print(list2)

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值