谈谈关于python 的分词框架jieba（结巴库）的使用

最新推荐文章于 2024-06-06 14:11:59 发布

东哥爱编程

最新推荐文章于 2024-06-06 14:11:59 发布

阅读量1k

点赞数

分类专栏：机器学习 python 文章标签： python 自然语言处理搜索引擎

本文链接：https://blog.csdn.net/monk96/article/details/124987200

版权

python 同时被 2 个专栏收录

50 篇文章 2 订阅

订阅专栏

机器学习

34 篇文章 0 订阅

订阅专栏

学习到口袋分词的内容，里面关于jieba的内容较为模糊，特此整理下用法。同时也整体的整理下知识

安装

pip install jieba

如需升级，则运行

pip install --upgrade pip

使用

引入

import jieba

基础方法

jieba.cut(str, cut_all = True)
解析：  cut 返回迭代器 generate， 需要遍历获取
jieba.lcut(str, cut_all= True) 返回数组， 直接展示可
cut_all
	   	True 全切割，会有联想词
	   	False 精确切割，

jieba.cut_for_search(str, HMM = True)
解析： 搜索引擎搜索方法
	   HMM 是否对未登陆的词语采取算法补充	
	   使⽤了 Viterbi 算法

区别: 模糊切割
精确切割
搜索切割
对于一些词语，我们可以引入外部的词语文件
如：我想把重庆辣火锅变成一词语，不被切割
方法一：使用文件text.txt
文件格式为一行一词

	词语				权重  	词性
	重庆辣火锅       	300       v
	jieba.load_userdict('./text.txt')
	jieba.cut(str)

重庆辣火锅不会被分开

在这里插入图片描述

对于少数的词语，可以直接加入
jieba.add_word('重庆辣火锅')
list(jieba.cut(note,cut_all= False))
也可使用jieba.suggest_freq(note, tune= True)
#同样也有删除的方法
jieba.del_word("大哥")

在这里插入图片描述

词性的获取

import jieba.posseg
tags = jieba.posseg.lcut(note)

在这里插入图片描述

词性参考

关键字提取

在这里插入图片描述

关键位置提取

在这里插入图片描述
指定模式

jieba.tokenize(note, mode= 'search')

在这里插入图片描述

东哥爱编程

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
谈谈关于python 的分词框架jieba（结巴库）的使用

学习到口袋分词的内容，里面关于jieba的内容较为模糊，特此整理下用法。同时也整体的整理下知识文章目录安装使用引入基础方法词性的获取关键字提取关键位置提取安装pip install jieba如需升级，则运行pip install --upgrade pip使用引入import jieba基础方法jieba.cut(str, cut_all = True)解析： cut 返回迭代器 generate，需要遍历获取jieba.lcut(str, cut_all= True)
复制链接

扫一扫