谈谈关于python 的分词框架jieba(结巴库)的使用

学习到口袋分词的内容,里面关于jieba的内容较为模糊,特此整理下用法。同时也整体的整理下知识

安装

pip install jieba

如需升级,则运行

pip install --upgrade pip

使用

引入

import jieba

基础方法

jieba.cut(str, cut_all = True)
解析:  cut 返回迭代器 generate, 需要遍历获取
jieba.lcut(str, cut_all= True) 返回数组, 直接展示可
cut_all
	   	True 全切割,会有联想词
	   	False 精确切割, 
jieba.cut_for_search(str, HMM = True)
解析: 搜索引擎搜索方法
	   HMM 是否对未登陆的词语采取算法补充	
	   使⽤了 Viterbi 算法
  • 区别: 模糊切割
    d
  • 精确切割在这里插入图片描述
  • 搜索切割
    在这里插入图片描述
  • 对于一些词语,我们可以引入外部的词语文件
    如:我想把重庆辣火锅变成一词语,不被切割
    方法一:使用文件text.txt
    文件格式为 一行一词
	词语				权重  	词性
	重庆辣火锅       	300       v
	jieba.load_userdict('./text.txt')
	jieba.cut(str)

重庆辣火锅不会被分开

在这里插入图片描述

对于少数的词语,可以直接加入
jieba.add_word('重庆辣火锅')
list(jieba.cut(note,cut_all= False))
也可使用jieba.suggest_freq(note, tune= True)
#同样也有删除的方法
jieba.del_word("大哥")

在这里插入图片描述

词性的获取

import jieba.posseg
tags = jieba.posseg.lcut(note)

在这里插入图片描述

  • 词性参考
    在这里插入图片描述

关键字提取

在这里插入图片描述

关键位置提取

在这里插入图片描述
指定模式

jieba.tokenize(note, mode= 'search')

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东哥爱编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值