Python jieba库的基本使用

最新推荐文章于 2024-03-21 13:36:33 发布

JOSON.

最新推荐文章于 2024-03-21 13:36:33 发布

阅读量3.1k

点赞数 10

分类专栏： Python 文章标签： python jieba 中文分词词频统计

原创文章，码字不易，未经博主允许请勿转载。博主QQ：859699677

本文链接：https://blog.csdn.net/joson1234567890/article/details/103803369

版权

Python 专栏收录该内容

44 篇文章 7 订阅

订阅专栏

1、三种分词模式的区别和应用场景

1.1、精确模式

将句子最精确的切开，适合文本分析
默认使用jieba.lcut(文本)，返回分词列表
jieba.cut 返回生成器，遍历生成器即可获得分词的结果

In:  jieba.lcut('今天真是个好天气！')
Out: ['今天', '真是', '个', '好', '天气', '！']

1.2、全模式

把句子中所有可能成词的词语都扫描出来，但是不能解决歧义
如下例子中，“天真“该分词实际并不存在句子中，存在歧义
调用：jieba.lcut(文本, cut_all=True)

In:  jieba.lcut('今天真是个好天气！',cut_all=True)
Out: ['今天', '天真', '真是', '个', '好', '天气', '', '']

1.3、搜索引擎模式

在精确模式的基础上，对长词再次切分，提高召回率，使用与搜索引擎分词。
调用：jieba.lcut_for_search(文本)

st = '我们应该采取必要的行动才能解决问题。'
In:  jieba.lcut(st)
Out: ['我们', '应该', '采取', '必要', '的', '行动', '才能', '解决问题', '。']

In:  jieba.lcut_for_search(st)
Out: ['我们', '应该', '采取', '必要', '的', '行动', '才能', '解决', '问题', '解决问题', '。']

2、添加词语

使用jieba.add_word(文本) 向词库增加词语。

st = '深圳市福田区华强职业技术学校'
In:  jieba.lcut(st)
Out: ['深圳市', '福田区', '华强', '职业', '技术学校']

In[1]:  jieba.add_word('华强职业技术学校')
In[2]:  jieba.lcut(st)
Out:    ['深圳市', '福田区', '华强职业技术学校']

3、词频（列表）统计

collections.Counter
统计列表中每个元素出现的次数，排序

from collections import Counter
colors = ['red', 'blue', 'red', 'green', 'blue', 'blue']

# 统计个数
result = Counter(colors)
Out：Counter({'red': 2, 'blue': 3, 'green': 1})

# 判断是否包含某元素
result['black'] # 如果不存在则返回0

# 删除元素
del result['blue']

# 出现次数最多的2个元素：
result.most_common(2)
Out：[('blue', 3), ('red', 2)]

# 排序
result = dict(Counter(colors)) # 转为字典
data = sorted(result.items(),key=lambda x:x[1],reverse=False)
Out: [('green', 1), ('red', 2), ('blue', 3)]

JOSON.

关注

10
点赞
踩
63

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python jieba库的基本使用

1、三种分词模式的区别和应用场景1.1、精确模式将句子最精确的切开，适合文本分析默认使用jieba.lcut(文本)，返回分词列表jieba.cut 返回生成器，遍历生成器即可获得分词的结果In: jieba.lcut('今天真是个好天气！')Out: ['今天', '真是', '个', '好', '天气', '！']1.2、全模式把句子中所有可能成词的词语都扫描出来，但是...
复制链接

扫一扫