jieba总结

jieba是最常用的分词工具,

现在总结jieba并不常用的其他模式

words_a='上海自来水来自海上,所以吃葡萄不吐葡萄皮'
seg_a=jieba.cut(words_a,cut_all=True)
print("全模式:","/".join(seg_a))
seg_b=jieba.cut(words_a)
print("精确模式:","/".join(seg_b))
seg_c=jieba.cut_for_search(words_a)
print("搜索引擎模式","/".join(seg_c))

来/自来水/来自/海上/,/所以/吃/葡萄/不/吐/葡萄/皮
精确模式: 上海/自来水/来自/海上/,/所以/吃/葡萄/不吐/葡萄/皮
搜索引擎模式 上海/自来/自来水/来自/海上/,/所以/吃/葡萄/不吐/葡萄/皮

jieba内嵌如了百度AI,其具体用法如下

import jieba

# jieba.initialize()

word_a = '上海资料室来自海上,所以吃葡萄不吃葡萄皮'
seg_a  = jieba.cut(word_a,cut_all= True)
print("全模式:","/".join(seg_a))
seg_b  = jieba.cut(word_a)
print("精确模式:","/".join(seg_b))
seg_c  = jieba.cut_for_search(word_a,)
print("搜索引擎模式:","/".join(seg_c))

##引入了百度的paddle

jieba.enable_paddle()##导入百度模块

segb = jieba.cut(word_a)
for w in segb:
	print(w)
	
	
##添加自定义词汇,适应不断产生的流行语
word_a1 = "我喜欢桂纶镁,不能说的秘密yyds,为她疯狂打call!"
segc = jieba.lcut(word_a1)
print(segc)
jieba.add_word("打call")
segc = jieba.lcut(word_a1)
print(segc)


##自定义词典:
'''forexample:

a,b,c,d,代表一个词
a
b
c
d
'''
##加载这个自定义文件
jieba.load_userdict('./datas/01mydict/')#
##发现心词和歧义词

jieba.suggest_freq((),True)##添加歧义新词的模型

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值