数据可视化第9天(利用wordcloud和jieba分析蝙蝠侠评论的关键字)

数据可以在这里下载
https://github.com/harkbox/DataAnalyseStudy

WordCloud

  • wordcloud可以很方便的生成词云图,方便的提供可视化
  • 可以直接使用pip install wordcloud进行安装
  • 如果使用的是Anaconda,可以使用conda install进行安装

下面看一个简单的例子

txt ="谜语 人家 里,他 把 布鲁斯·韦恩 的 照片 和 蝙蝠侠"

#font_path:如果含有中文,需要有中文字体的路径
#collocations=False,不包括重复的词
#max_words最多50个词
wordcloud=WordCloud(font_path='/System/Library/Fonts/Hiragino Sans GB.ttc',collocations=False,
                       width=800,height=600,max_words=50).generate(txt)
    
    
image=wordcloud.to_image()
image.show()

jieba

  • jieba是一个强大的中文分词库
  • 存在三种分词模式,全模式,精确模式,搜索模式
  • 使用jieba和wordcloud可以方便的实现对文章进行词云图分析
  • jieba使用cut切分文章
  • jieba.analyse.extract_tags()用来提取关键词

使用上述的两个库实现分析评论

import wordcloud
import jieba.analyse
filename='你的text文件名字'

with open(filename,encoding='utf-8') as f:
    data=f.read()
#topk=1000,提取最多1000个关键词,allowPOS='a',提取的都#是形容词   
seg_list=jieba.analyse.extract_tags(data,topK=1000,allowPOS=("a"))
#将提取的关键词列表变为字符串并且用空格隔开,方便进行词云图的绘制
text=' '.join(seg_list)
wordcloud=WordCloud(font_path='/System/Library/Fonts/Hiragino Sans GB.ttc',width=800,height=600,                   collocations=False,max_words=100,background_color='black').generate(text)

image=wordcloud.to_image()
image.show()

效果如下,显然评论大多数认为过于拖沓
在这里插入图片描述

  • 8
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值