jieba总结

最新推荐文章于 2023-01-09 15:28:25 发布

wcc8848

最新推荐文章于 2023-01-09 15:28:25 发布

阅读量532

点赞数

分类专栏：深度学习与nlp 文章标签：人工智能

本文链接：https://blog.csdn.net/wcc8848/article/details/124033660

版权

深度学习与nlp 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

jieba是最常用的分词工具，

现在总结jieba并不常用的其他模式

words_a='上海自来水来自海上，所以吃葡萄不吐葡萄皮'
seg_a=jieba.cut(words_a,cut_all=True)
print("全模式：","/".join(seg_a))
seg_b=jieba.cut(words_a)
print("精确模式：","/".join(seg_b))
seg_c=jieba.cut_for_search(words_a)
print("搜索引擎模式","/".join(seg_c))

来/自来水/来自/海上/，/所以/吃/葡萄/不/吐/葡萄/皮
精确模式： 上海/自来水/来自/海上/，/所以/吃/葡萄/不吐/葡萄/皮
搜索引擎模式 上海/自来/自来水/来自/海上/，/所以/吃/葡萄/不吐/葡萄/皮

jieba内嵌如了百度AI,其具体用法如下

import jieba

# jieba.initialize()

word_a = '上海资料室来自海上，所以吃葡萄不吃葡萄皮'
seg_a  = jieba.cut(word_a,cut_all= True)
print("全模式:","/".join(seg_a))
seg_b  = jieba.cut(word_a)
print("精确模式:","/".join(seg_b))
seg_c  = jieba.cut_for_search(word_a,)
print("搜索引擎模式:","/".join(seg_c))

##引入了百度的paddle

jieba.enable_paddle()##导入百度模块

segb = jieba.cut(word_a)
for w in segb:
	print(w)
	
	
##添加自定义词汇，适应不断产生的流行语
word_a1 = "我喜欢桂纶镁，不能说的秘密yyds,为她疯狂打call!"
segc = jieba.lcut(word_a1)
print(segc)
jieba.add_word("打call")
segc = jieba.lcut(word_a1)
print(segc)


##自定义词典：
'''forexample:

a,b,c,d，代表一个词
a
b
c
d
'''
##加载这个自定义文件
jieba.load_userdict('./datas/01mydict/')#
##发现心词和歧义词

jieba.suggest_freq((),True)##添加歧义新词的模型

wcc8848

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jieba总结

jieba是最常用的分词工具，现在总结jieba并不常用的其他模式words_a='上海自来水来自海上，所以吃葡萄不吐葡萄皮'seg_a=jieba.cut(words_a,cut_all=True)print("全模式：","/".join(seg_a))seg_b=jieba.cut(words_a)print("精确模式：","/".join(seg_b))seg_c=jieba.cut_for_search(words_a)print("搜索引擎模式","/".join(seg
复制链接

扫一扫

专栏目录