【爬虫实战】2024知乎热榜可视化爬取

项目功能简介:

1.支持配置;
2.单次爬取;
3.循环爬取;
4.爬虫暂停;
5.数据清除;
6.数据保存到csv文件;
7.程序支持打包成exe文件;
8.项目操作说明文档;
9.模块封装到类,方便学习、二次开发;

一.最终效果

1.1程序界面:

1.2保存数据到csv:

二.项目代码

2.1 编写界面

该脚本的界面使用PyQt5库开发,经过测试这个库的运行时性能要优于Tkinter,特别是实在多数据数据表单滑动,Tkinter卡顿太严重,因此我们使用性能出色的PyQt5来实现,界面编写过程大致如下:

class MyForm(QWidget):
    update_table_signal = pyqtSignal(dict)
    current_row = 0
    my_timer = None
    refresh_counts = 0

    def __init__(self):
        super().__init__()
        self.thread_pool = QThreadPool()
        self.form_data = {}
        ...

    def initUI(self):

        # 设置窗口属性
        self.setGeometry(100, 100, 1000, 600)
        self.setWindowTitle('知乎·热榜·可视化抓取')
        self.center_on_screen()

        # 在垂直布局中添加第一排和第二排的水平布局
        self.layout = QVBoxLayout()

        # 第二排
        self.layout_row2 = QHBoxLayout()
        self.btn_start = QPushButton('开始采集')
        self.btn_stop = QPushButton('停止采集')
        self.btn_stop.setEnabled(False)

        self.label_counts = QLabel('每隔多久重新采集一次')
        self.layout.addLayout(self.layout_row2)

        self.table = QTableWidget(self)
        
        ...
2.2 配置

请求数据需要的headers、cookies、请求url都在config.json文件中配置,如下图:

2.3 操作说明

1.不输入时间间隔默认为单次采集,输入后会以秒为单位重复采集;

2.重复采集时会如果热榜有更新,会增量更新,例如最新一次的数据与前一次的数据有不同的A数据,则A数据会增量更新到结果中;如果数据A已经存在,则用最新的数据更新A,而不会在csv中新增一行;

3.“停止按钮”按钮被点击后,会等待正在爬取的行为完成后停止后续爬取行为(可根据按钮是否可点击指示操作即可!)

三.保存数据

数据保存继续使用pandas库,安装: pip install pandas,使用pandas保存,用法如下:

    def data_to_save(self, data_list):
        # 创建 DataFrame 对象
        df = pd.DataFrame(data_list)
        # 检查是否有文件
        has_file = self.check_data()
        if not has_file:
            # 不存在则添加
            df.to_csv(self.file_path, index=False, columns=[
                      "titleArea", "metricsArea", "answerCount", "link", "excerptArea"])
            return

        # 读取文件
        exist_df = pd.read_csv(self.file_path)
        # 合并数据
        merged_df = pd.merge(exist_df, df, on="link", how="outer")
        # 去重
        merged_df = merged_df.drop_duplicates(subset="link", keep="last")
        
        ...
       

代码中已添加注释,方便初学者理解

四.项目说明文档

安装 python3

到官网下载 python 3.8.x 版本安装包,根据提示安装(windows 请勾选添加环境变量复选框)

注意:python3.8.x,不能是 3.9+(否则 pyinstaller 打包时可能报错)

本地运行

pip install pandas bs4 PyQt5

python3 main.py

开始打包

pyinstaller -F -w --name '知乎·热榜·可视化抓取' main.py (没有 main.spec 文件用此命令)
或者
pyinstaller main.spec (有 main.spec 文件可用此命令)

pyinstaller 打包完成后,项目的根目录下会自动生成一个 dist 目录,exe 文件就在此目录中,此时的 exe 可以单独拷贝到任何地方运行;运行 exe 文件之前务必看下面的“注意事项”。

五.获取完整源码

爱学习的小伙伴,本次案例的完整源码,已上传微信公众号:一个努力奔跑的snail,后台回复 知乎热榜 即可获取。

  • 10
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
【资源说明】 基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar 基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar 基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,也适用于小白学习入门进阶。当然也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或者热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载,沟通交流,互相学习,共同进步!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

玛卡`三少

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值