Python爬虫入门教程06:爬取数据后的词云图制作

本文是Python爬虫入门教程的一部分,重点介绍如何利用jieba分词和wordcloud库,从B站弹幕数据中创建词云图。通过设置词云的尺寸、颜色、字体和形状,剔除无意义的关键词,如'到位',并展示使用imageio读取自定义形状图片作为词云模板的过程。
摘要由CSDN通过智能技术生成

上篇文章爬取了B站视频的弹幕数据,对于这方面可以做一些弹幕词云分析,让爬虫数据不再过于单调。

代码内容还是非常简介的,看注释就可以明白了

import jieba

import wordcloud

读取文件内容

f = open(‘弹幕.txt’, encoding=‘utf-8’)

txt = f.read()

jiabe 分词 分割词汇

txt_list = jieba.lcut(txt)

string = ’ '.join(txt_list)

词云图设置

wc = wordcloud.WordCloud(

width=1000, # 图片的宽

height=700, # 图片的高

background_color=‘white’, # 图片背景颜色

font_path=‘msyh.ttc’, # 词云字体

scale=15,

)

给词云输入文字

wc.generate(string)

词云图保存图片地址

wc.to_file(‘out.png’)

在这里插入图片描述

由上图所示,有很多的这样的 到位 这样的关键词,这样的关键词是没有什么实际意义的,我们可以在词云设置中设置

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值