【Python_005】利用jieba及wordcloud生成词频及词云图

本文介绍了如何利用jieba进行中文分词,并计算词频,为生成词云图做准备。通过Anaconda安装jieba库,使用精确模式进行切词,结合停用词表计算词频。最后,通过wordcloud库绘制词云图,以可视化文本数据。
摘要由CSDN通过智能技术生成

词云图在数据分析中是比较常见的可视化操作,尤其在做定性分析时,通过词云图展示对某件产品或某个现象讨论最热的词,直观又好看

词频

生成词云图之前首先要确定各个词的词频,从而知道每个词的热门程度及后续在词云中不同大小的展示(词频即每个词出现的频率)

如何计算词频呢?
下面就需要介绍一个第三方库:jieba (没错,就是你想的那个结巴。。。

jieba库:做最好的 Python 中文分词组件
Github官方文档

安装jieba

我用的是anaconda,比较方便。
直接打开anaconda promot, 输入 pip install jieba 就可
在这里插入图片描述
验证一下是否安装成功:
打开pycharm -> File -> Setting -> Project Interpreter
在列表中看到jieba库就说明安装成功了,如图:
在这里插入图片描述

jieba 切词

共有三种模式:

  1. 搜索引擎模式
  2. 全模式
  3. 精确模式

个人认为三种模式中精确模式最好用,最适合用来文本分析。

用我大《三体》来举个例子嘎嘎嘎

import jieba

str = '斩尽杀绝,这是对一个文明的最高重视'

'''
精确模式效果在一般情况下 效果最好
jieba.cut() 生成 generator,需要for loop 返回里面的每一个词
jieba.lcut() 生成list
'''
seg_list_search = jieba.cut_for_search(str) # 搜索引擎模式
seg_list1 = jieba.cut(str, cut_all = True) #全模式
seg_list2 = jieba.cut(str, cut_all = False) #精确模式, 默认为精确, cut_all=False 可缺省
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值