Python爬虫入门教程06：爬取数据后的词云图制作

2301_76348206

于 2024-04-01 15:18:56 发布

阅读量572

点赞数 4

分类专栏： 2024年程序员学习文章标签： python 爬虫 linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76348206/article/details/137234622

版权

本文是Python爬虫入门教程的一部分，重点介绍如何利用jieba分词和wordcloud库，从B站弹幕数据中创建词云图。通过设置词云的尺寸、颜色、字体和形状，剔除无意义的关键词，如'到位'，并展示使用imageio读取自定义形状图片作为词云模板的过程。

摘要由CSDN通过智能技术生成

上篇文章爬取了B站视频的弹幕数据，对于这方面可以做一些弹幕词云分析，让爬虫数据不再过于单调。

代码内容还是非常简介的，看注释就可以明白了

import jieba

import wordcloud

读取文件内容

f = open(‘弹幕.txt’, encoding=‘utf-8’)

txt = f.read()

jiabe 分词分割词汇

txt_list = jieba.lcut(txt)

string = ’ '.join(txt_list)

词云图设置

wc = wordcloud.WordCloud(

width=1000, # 图片的宽

height=700, # 图片的高

background_color=‘white’, # 图片背景颜色

font_path=‘msyh.ttc’, # 词云字体

scale=15,

)

给词云输入文字

wc.generate(string)

词云图保存图片地址

wc.to_file(‘out.png’)

在这里插入图片描述

由上图所示，有很多的这样的 到位 这样的关键词，这样的关键词是没有什么实际意义的，我们可以在词云设置中设置

最低0.47元/天解锁文章

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫入门教程06：爬取数据后的词云图制作

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！
复制链接

扫一扫

专栏目录

博客等级

码龄2年

365
原创

5347
点赞

5117
收藏

3727
粉丝

关注

私信

热门文章

分类专栏

2024年程序员学习 167篇
程序员 190篇

最新评论

Java最新谁说GitHub才能出经典？出自牛客网的Java程序员逆袭手册才是YYDS，java四年经验面试题
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
干了八年的阿里面试官，给大家分享我面试时最爱问的Java面试题(1)
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
2024年最全Java~学习垃圾回收算法(GC)的基本原理(标记-回收)，java面试官常问的问题
小饭团~: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。期待博主未来能够持续分享更多好文，同时也希望能够得到博主的指导，共同进步。非常感谢博主的分享和支持！
hive学习笔记之十一：UDTF(1)
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【110期】面试官：说说 RabbitMQ 消费端限流、TTL、死信队列
普通网友: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。