jieba是最常用的分词工具,
现在总结jieba并不常用的其他模式
words_a='上海自来水来自海上,所以吃葡萄不吐葡萄皮'
seg_a=jieba.cut(words_a,cut_all=True)
print("全模式:","/".join(seg_a))
seg_b=jieba.cut(words_a)
print("精确模式:","/".join(seg_b))
seg_c=jieba.cut_for_search(words_a)
print("搜索引擎模式","/".join(seg_c))
来/自来水/来自/海上/,/所以/吃/葡萄/不/吐/葡萄/皮
精确模式: 上海/自来水/来自/海上/,/所以/吃/葡萄/不吐/葡萄/皮
搜索引擎模式 上海/自来/自来水/来自/海上/,/所以/吃/葡萄/不吐/葡萄/皮
jieba内嵌如了百度AI,其具体用法如下
import jieba
# jieba.initialize()
word_a = '上海资料室来自海上,所以吃葡萄不吃葡萄皮'
seg_a = jieba.cut(word_a,cut_all= True)
print("全模式:","/".join(seg_a))
seg_b = jieba.cut(word_a)
print("精确模式:","/".join(seg_b))
seg_c = jieba.cut_for_search(word_a,)
print("搜索引擎模式:","/".join(seg_c))
##引入了百度的paddle
jieba.enable_paddle()##导入百度模块
segb = jieba.cut(word_a)
for w in segb:
print(w)
##添加自定义词汇,适应不断产生的流行语
word_a1 = "我喜欢桂纶镁,不能说的秘密yyds,为她疯狂打call!"
segc = jieba.lcut(word_a1)
print(segc)
jieba.add_word("打call")
segc = jieba.lcut(word_a1)
print(segc)
##自定义词典:
'''forexample:
a,b,c,d,代表一个词
a
b
c
d
'''
##加载这个自定义文件
jieba.load_userdict('./datas/01mydict/')#
##发现心词和歧义词
jieba.suggest_freq((),True)##添加歧义新词的模型