中文分词之jieba简单应用

原创 2017年10月12日 20:36:43


       最近需要从一些中文文本中提取频率较高的关键词,在网上看到用 Python 做文本挖掘的流程这篇文章,然后知道了jieba(含详细介绍和使用方法)。


1.简介


“结巴”中文分词:做最好的 Python 中文分词组件。特点如下:

  • 支持三种分词模式:

               精确模式,试图将句子最精确地切开,适合文本分析;
               全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
               搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

  • 支持繁体分词
  • 支持自定义词典
  • MIT 授权协议

2.  代码演示

       由于目前的需求只需要从一些中文文本中提取频率较高的关键词,因此只演示很小一部分功能。
import jieba # 导入jieba包

content =  open('F:\weibo_predict_period2\get_top20_keywords.txt', 'rb').read() # 读取中文文件内容

tags= jieba.analyse.extract_tags(content, topK=20) # 提取前topK个高频率的词

print(",".join(tags)) # 输出

        注:有进一步需求,请参考“结巴”中文分词 。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

jieba中文分词应用

应用结巴分词工具对某文件进行中文分词。加载自定义字典,字典里面的专有名词在分词时就不会被切割

Jieba0.35中文分词组件

  • 2016-03-23 18:25
  • 7.08MB
  • 下载

Jieba中文分词说明

结巴分词介绍现在开源的中文分词工具,有IK、MMseg4j、THULAC、Ansj、Jieba、HanLP等,其中最近还在更新并维护的,也是目前分词效果比较优秀的要属于Ansj、Jieba、HanLP...

Python中文分词组件jieba

jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba"  Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析;全...

Python中文分词 jieba 十五分钟入门与进阶

版权声明:欢迎转载我的博客,请标明出处. 目录(?)[-] 整体介绍三种分词模式与一个参数关键词提取中文歧义测试与去除停用词三种可以让分词更准确的方法并行计算 ...

在Python里安装Jieba中文分词组件

Jieba是一个中文分词组件,可用于中文句子/词性分割、词性标注、未登录词识别,支持用户词典等功能。该组件的分词精度达到了97%以上。下载介绍在Python里安装Jieba。   1)下载Jie...

在Python里安装Jieba中文分词组件

Jieba是一个中文分词组件,可用于中文句子/词性分割、词性标注、未登录词识别,支持用户词典等功能。该组件的分词精度达到了97%以上。下载介绍在Python里安装Jieba。   1)下载Jieba...

在Python里安装Jieba中文分词组件

Jieba是一个中文分词组件,可用于中文句子/词性分割、词性标注、未登录词识别,支持用户词典等功能。该组件的分词精度达到了97%以上。下载介绍在Python里安装Jieba。   1)下载Jieba...

中文分词jieba python 学习

结巴分词来进行文本分析

Python中文分词 jieba 十五分钟入门与进阶

整体介绍jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,博主十分推荐 github:https://github.com/fxsjy/jieba...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)