文本挖掘


#encoding=utf-8
import jieba

#全模式
text = "我来到东京早稻田大学"
seg_list = jieba.cut(text, cut_all=True)
print (u"[全模式]: ", "/ ".join(seg_list)) 

#精确模式
seg_list = jieba.cut(text, cut_all=False)
print (u"[精确模式]: ", "/ ".join(seg_list))

#默认是精确模式
seg_list = jieba.cut(text)
print (u"[默认模式]: ", "/ ".join(seg_list)) 

#新词识别 “杭研”并没有在词典中,但是也被Viterbi算法识别出来了
seg_list = jieba.cut("他来到了网易杭研大厦") 
print (u"[新词识别]: ", "/ ".join(seg_list))

#搜索引擎模式
seg_list = jieba.cut_for_search(text) 
print (u"[搜索引擎模式]: ", "/ ".join(seg_list))
seg_list = jieba.cut_for_search(text)
print ("[搜索引擎模式]: ", "/ ".join(seg_list)) 



以u或U开头的字符串表示unicode字符串, print时,就相当于print "游戏结果\n成绩列表",字符串中,转义字符会进行转义。 输出结果就是: 游戏结果 成绩列表 别外一种用法,如果想直接输出"游戏结果\n成绩列表",就写成: aa=(r"游戏结果\n成绩列表") print(aa) 这样,\n就不会进行转义,方便输出处理反斜杠, 这样输出结果就是: 游戏结果\n成绩列表




1. 全模式 就是会将所有的分词结果都输出来,任何的词语组合。

2. 精准模式 是根据词语的权重分得的最为准确的分词模式。

3. 搜索引擎模式 是用于分词之后的索引。

4. 默认模式 默认的不加参数的模式为精准模式。

jieba还可以标注词语的词性:

5. 词典加载需要导入jieba.posseg的包

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值