中文分词之jieba简单应用

最新推荐文章于 2023-06-18 09:59:02 发布

jingyi130705008

最新推荐文章于 2023-06-18 09:59:02 发布

阅读量647

点赞数

分类专栏： Python学习文章标签： python jieba

本文链接：https://blog.csdn.net/jingyi130705008/article/details/78219460

版权

Python学习专栏收录该内容

41 篇文章 6 订阅

订阅专栏

最近需要从一些中文文本中提取频率较高的关键词，在网上看到用 Python 做文本挖掘的流程这篇文章，然后知道了jieba（含详细介绍和使用方法）。

1.简介

“结巴”中文分词：做最好的 Python 中文分词组件。特点如下：

支持三种分词模式：

精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

支持繁体分词
支持自定义词典
MIT 授权协议

2. 代码演示

由于目前的需求只需要从一些中文文本中提取频率较高的关键词，因此只演示很小一部分功能。

import jieba # 导入jieba包

content =  open('F:\weibo_predict_period2\get_top20_keywords.txt', 'rb').read() # 读取中文文件内容

tags= jieba.analyse.extract_tags(content, topK=20) # 提取前topK个高频率的词

print(",".join(tags)) # 输出

注：有进一步需求，请参考“结巴”中文分词。