python结巴分词以及词频统计实例

最新推荐文章于 2024-08-08 19:52:37 发布

sort浅忆

最新推荐文章于 2024-08-08 19:52:37 发布

阅读量1.1w

点赞数 2

分类专栏： python 将博客搬至CSDN 文章标签： python jieba

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kai402458953/article/details/79625660

版权

本文展示了如何使用Python结合jieba库进行关键词提取和词频统计。通过精确模式、全模式和搜索引擎模式对文本进行分词，并进行词频统计，将结果保存到文件。

摘要由CSDN通过智能技术生成

# coding=utf-8
'''
Created on 2018年3月19日
@author: chenkai

结巴分词
支持三种分词模式：
精确模式: 试图将句子最精确地切开，适合文本分析；
全模式: 把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式: 在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
'''

import jieba
import jieba.analyse

seg_list = jieba.cut("我来到北京清华大学找妹子，我很开心",cut_all=True)
print "全模式: ", "/".join(seg_list)
seg_list2 = jieba.cut("我来到北京清华大学找妹子，我很开心",cut_all=False)
print "精确模式: ", "/".join(seg_list2)
#jieba.cut() 默认是精确模式
seg_list3 = jieba.cut_for_search("我来到北京清华大学找妹子，我很开心") # 搜索引擎模式
print "搜索引擎模式: ", "#".join(seg_list3)
list2="/".join(seg_list3)
'''

最低0.47元/天解锁文章

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。