文本挖掘

最新推荐文章于 2023-11-30 19:46:20 发布

来自玩家鼠子的情报

最新推荐文章于 2023-11-30 19:46:20 发布

阅读量246

点赞数

本文链接：https://blog.csdn.net/nenjiyong2334/article/details/79312695

版权

#encoding=utf-8
import jieba

#全模式
text = "我来到东京早稻田大学"
seg_list = jieba.cut(text, cut_all=True)
print (u"[全模式]: ", "/ ".join(seg_list))

#精确模式
seg_list = jieba.cut(text, cut_all=False)
print (u"[精确模式]: ", "/ ".join(seg_list))

#默认是精确模式
seg_list = jieba.cut(text)
print (u"[默认模式]: ", "/ ".join(seg_list))

#新词识别 “杭研”并没有在词典中,但是也被Viterbi算法识别出来了
seg_list = jieba.cut("他来到了网易杭研大厦")
print (u"[新词识别]: ", "/ ".join(seg_list))

#搜索引擎模式
seg_list = jieba.cut_for_search(text)
print (u"[搜索引擎模式]: ", "/ ".join(seg_list))
seg_list = jieba.cut_for_search(text)
print ("[搜索引擎模式]: ", "/ ".join(seg_list))

以u或U开头的字符串表示unicode字符串， print时，就相当于print "游戏结果\n成绩列表"，字符串中，转义字符会进行转义。输出结果就是：游戏结果成绩列表别外一种用法，如果想直接输出"游戏结果\n成绩列表"，就写成: aa=(r"游戏结果\n成绩列表") print(aa) 这样，\n就不会进行转义，方便输出处理反斜杠，这样输出结果就是：游戏结果\n成绩列表

1. 全模式就是会将所有的分词结果都输出来，任何的词语组合。

2. 精准模式是根据词语的权重分得的最为准确的分词模式。

3. 搜索引擎模式是用于分词之后的索引。

4. 默认模式默认的不加参数的模式为精准模式。

jieba还可以标注词语的词性：

5. 词典加载需要导入jieba.posseg的包

来自玩家鼠子的情报

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本挖掘

#encoding=utf-8import jieba#全模式text = "我来到东京早稻田大学"seg_list = jieba.cut(text, cut_all=True)print (u"[全模式]: ", "/ ".join(seg_list)) #精确模式seg_list = jieba.cut(text, cut_all=False)print (u"[精确模式]: ", "/ "...
复制链接

扫一扫