学习到口袋分词的内容,里面关于jieba的内容较为模糊,特此整理下用法。同时也整体的整理下知识
安装
pip install jieba
如需升级,则运行
pip install --upgrade pip
使用
引入
import jieba
基础方法
jieba.cut(str, cut_all = True)
解析: cut 返回迭代器 generate, 需要遍历获取
jieba.lcut(str, cut_all= True) 返回数组, 直接展示可
cut_all
True 全切割,会有联想词
False 精确切割,
jieba.cut_for_search(str, HMM = True)
解析: 搜索引擎搜索方法
HMM 是否对未登陆的词语采取算法补充
使⽤了 Viterbi 算法
- 区别: 模糊切割
- 精确切割
- 搜索切割
- 对于一些词语,我们可以引入外部的词语文件
如:我想把重庆辣火锅变成一词语,不被切割
方法一:使用文件text.txt
文件格式为 一行一词
词语 权重 词性
重庆辣火锅 300 v
jieba.load_userdict('./text.txt')
jieba.cut(str)
重庆辣火锅不会被分开
对于少数的词语,可以直接加入
jieba.add_word('重庆辣火锅')
list(jieba.cut(note,cut_all= False))
也可使用jieba.suggest_freq(note, tune= True)
#同样也有删除的方法
jieba.del_word("大哥")
词性的获取
import jieba.posseg
tags = jieba.posseg.lcut(note)
- 词性参考
关键字提取
关键位置提取
指定模式
jieba.tokenize(note, mode= 'search')