#encoding=utf-8
import jieba
#全模式
text = "我来到东京早稻田大学"
seg_list = jieba.cut(text, cut_all=True)
print (u"[全模式]: ", "/ ".join(seg_list))
#精确模式
seg_list = jieba.cut(text, cut_all=False)
print (u"[精确模式]: ", "/ ".join(seg_list))
#默认是精确模式
seg_list = jieba.cut(text)
print (u"[默认模式]: ", "/ ".join(seg_list))
#新词识别 “杭研”并没有在词典中,但是也被Viterbi算法识别出来了
seg_list = jieba.cut("他来到了网易杭研大厦")
print (u"[新词识别]: ", "/ ".join(seg_list))
#搜索引擎模式
seg_list = jieba.cut_for_search(text)
print (u"[搜索引擎模式]: ", "/ ".join(seg_list))
seg_list = jieba.cut_for_search(text)
print ("[搜索引擎模式]: ", "/ ".join(seg_list))
以u或U开头的字符串表示unicode字符串, print时,就相当于print "游戏结果\n成绩列表",字符串中,转义字符会进行转义。 输出结果就是: 游戏结果 成绩列表 别外一种用法,如果想直接输出"游戏结果\n成绩列表",就写成: aa=(r"游戏结果\n成绩列表") print(aa) 这样,\n就不会进行转义,方便输出处理反斜杠, 这样输出结果就是: 游戏结果\n成绩列表
1. 全模式 就是会将所有的分词结果都输出来,任何的词语组合。
2. 精准模式 是根据词语的权重分得的最为准确的分词模式。
3. 搜索引擎模式 是用于分词之后的索引。
4. 默认模式 默认的不加参数的模式为精准模式。
jieba还可以标注词语的词性:
5. 词典加载需要导入jieba.posseg的包