目录
一、实验目的
1)了解“大数据可视化”的基本组成结构;
2)掌握微型大数据可视化常用软件的基本操作方法;
3)体验大数据可视化:词云实现的效果。
4)首先通过熟悉Excel、Python等软件的编程环境以及基本操作对数据进行读取、显示、处理和保存等操作,提升学生的实际动手能力。
二、实验环境
硬件:微型图像处理系统,
包括:主机, PC机;
操作系统:Windows 11
应用软件:Jupyter Notebook, pycharm
数字图像处理软件:Excel/Python
三、实验内容
本实验通过python爬虫获取关于“地摊经济”的微博文章下的评论文本,随后绘制出评论的词云图并改良,具体步骤如下:
(1)爬取微博评论:使用python爬虫获取微博“#人民锐评#:#地摊经济升温不能发烧#”(【#人民锐评#:#地... - @人民日报的微博 - 微博 (weibo.com))下的评论;
(2)结巴分词:使用python工具包“jieba”对评论进行全模式结巴分词;
(3)初始词云图绘制:使用python工具包“wordcloud”进行词云图尝试绘制;
(4)改良的词云图绘制:删除单字无用的词,并且手动添加停用词,重新绘制包含更多信息的词云图。
(1)爬取微博评论
选择一个主题为“地摊经济”的微博评论区进行爬取,微博正文界面和评论界面如下图所示:
使用python工具包“requests”编写爬虫代码如下:
import os |