爬取某小说榜单爬虫及可视化分析

最新推荐文章于 2024-07-22 14:52:02 发布

写bug如流水

最新推荐文章于 2024-07-22 14:52:02 发布

阅读量4k

点赞数 5

分类专栏： Python 文章标签： python 数据分析数据可视化爬虫 gui

本文链接：https://blog.csdn.net/h1773655323/article/details/117530974

版权

Python 专栏收录该内容

69 篇文章

订阅专栏

该博客主要围绕爬取某小说榜单展开，包含软件架构、环境说明等内容。介绍了爬虫网站选取、编写爬虫方法、设计GUI界面、进行数据清洗处理和可视化等步骤，还展示了GUI页面、爬取数据及生成可视化图表等相关截图。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬取某小说榜单爬虫及可视化分析（仅用于学习）

gitee代码链接：https://gitee.com/huang_jia_son/duoduo.git

介绍

GUI界面+python爬虫+数据清洗与处理+pyecharts可视化展示

软件架构

（1）通过tkinter制作GUI界面，通过按钮触发爬虫事件，数据分析事件。

（2）爬虫提取数据，并通过机器学习算法进行相关的计算求和，以及数据清洗和断句。

（3）点击数据分析按钮自动跳转超链接，html页面中包括热门小说类型统计图，热点分析图（词云图），热门小说状态扇形图，作者字数天梯榜，字数-排名分析散点图

环境说明

计算机系统版本：Window10

python版本：Python3.7.6

编辑器：PyCharm2020.1.3

代码说明

（1）爬虫网站选取

确定要爬取的网站，通过“F12”查看前端源代码，分析爬取信息的可行性，然后找到需要爬取的标签，内容分别为"序号", "类型", "小说名称", "更新章节", "状态", "字数", "作者", "更新时间"。

（2）爬虫方法getList（）编写

首先通过etree.HTML获得网站源码，然后通过xpath方法通过途径查找想要爬取的标签文本。然后将它们通过遍历添加到一个数组中，并且返回数组，同时将他们写入bangdan.csv文件当中。

（3）GUI界面设计

通过tkinter库设计窗体，依次添加容器和需要的组件。

（4）数据清洗及处理

通过机器学习算法，例如Pandas库，对文件中的数据进行处理，如求和以及分组等。

（5）数据可视化

将处理以后的数据通过pyecharts工具生成直观可视的图表，我们可能从中得到我们想要的信息。