分词学习之——jieba

最新推荐文章于 2022-06-09 11:07:09 发布

番茄被人吃了

最新推荐文章于 2022-06-09 11:07:09 发布

阅读量1.3k

点赞数 1

分类专栏： jieba 文章标签： jieba 分词获取关键词 Topn 获取词性

本文链接：https://blog.csdn.net/weixin_42343616/article/details/81565750

版权

1、jieba分词的三种模式

全模式，分成尽可能多的词

import jieba
example = "结巴分词是个好东西，大家要好好学习。"
cut = jieba.cut(example, cut_all=True)
print(type(cut))
print(cut)
print(','.join(cut))
输出如下:
<class 'generator'>
<generator object Tokenizer.cut at 0x7fe6d414b780>
结巴,分词,是,个,好,东西,,,大家,要,好好,好好学,好好学习,好学,学习,,

精确模式

import jieba
example = "结巴分词是个好东西，大家要好好学习。"
cut = jieba.cut(example)
print(','.join(cut))
输出如下（cut的类型余全模式一样）：
结巴,分词,是,个,好,东西,，,大家,要,好好学习,。

搜索模式

import jieba
example = "结巴分词是个好东西，大家要好好学习。"
cut = jieba.cut_for_search(example)
print(','.join(cut))
输出如下（cut类型不变）：
结巴,分词,是,个,好,东西,，,大家,要,好好,好学,学习,好好学,好好学习,。

一般如果是文本预处理的话，选择精确模式。

2、结巴之获取词性

import jieba.posseg as psg
list = []
example = "结巴分词是个好东西，大家要好好学习。"
pairs = psg.cut(example)
print(pairs)
print(type(pairs))

最低0.47元/天解锁文章

番茄被人吃了

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分词学习之——jieba

1、jieba分词的三种模式全模式，分成尽可能多的词import jiebaexample = &quot;结巴分词是个好东西，大家要好好学习。&quot;cut = jieba.cut(example, cut_all=True)print(type(cut))print(cut)print(','.join(cut))输出如下:&amp;lt;class 'generator'&amp;gt;&amp;lt;...
复制链接

扫一扫