Python jieba库的基本使用

1、三种分词模式的区别和应用场景

1.1、 精确模式
将句子最精确的切开,适合文本分析
默认使用jieba.lcut(文本),返回分词列表
jieba.cut 返回生成器,遍历生成器即可获得分词的结果
In:  jieba.lcut('今天真是个好天气!')
Out: ['今天', '真是', '个', '好', '天气', '!']
1.2、全模式
把句子中所有可能成词的词语都扫描出来,但是不能解决歧义
如下例子中,“天真“该分词实际并不存在句子中,存在歧义
调用:jieba.lcut(文本, cut_all=True)
In:  jieba.lcut('今天真是个好天气!',cut_all=True)
Out: ['今天', '天真', '真是', '个', '好', '天气', '', '']
1.3、搜索引擎模式
在精确模式的基础上,对长词再次切分,提高召回率,使用与搜索引擎分词。
调用:jieba.lcut_for_search(文本)
st = '我们应该采取必要的行动才能解决问题。'
In:  jieba.lcut(st)
Out: ['我们', '应该', '采取', '必要', '的', '行动', '才能', '解决问题', '。']

In:  jieba.lcut_for_search(st)
Out: ['我们', '应该', '采取', '必要', '的', '行动', '才能', '解决', '问题', '解决问题', '。']

2、添加词语

使用jieba.add_word(文本) 向词库增加词语。
st = '深圳市福田区华强职业技术学校'
In:  jieba.lcut(st)
Out: ['深圳市', '福田区', '华强', '职业', '技术学校']

In[1]:  jieba.add_word('华强职业技术学校')
In[2]:  jieba.lcut(st)
Out:    ['深圳市', '福田区', '华强职业技术学校']

3、词频(列表)统计

collections.Counter
统计列表中每个元素出现的次数,排序
from collections import Counter
colors = ['red', 'blue', 'red', 'green', 'blue', 'blue']

# 统计个数
result = Counter(colors)
Out:Counter({'red': 2, 'blue': 3, 'green': 1})

# 判断是否包含某元素
result['black'] # 如果不存在则返回0

# 删除元素
del result['blue']

# 出现次数最多的2个元素:
result.most_common(2)
Out:[('blue', 3), ('red', 2)]

# 排序
result = dict(Counter(colors)) # 转为字典
data = sorted(result.items(),key=lambda x:x[1],reverse=False)
Out: [('green', 1), ('red', 2), ('blue', 3)]
  • 10
    点赞
  • 63
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JOSON.

你的鼓励是我创作最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值