分布式爬虫调度及数据管理系统[Python]

最新推荐文章于 2024-08-01 15:04:56 发布

林次次

最新推荐文章于 2024-08-01 15:04:56 发布

阅读量6.8k

点赞数 7

分类专栏：爬虫＝＝＝＝Python＝＝＝＝ Django Flask ＝＝＝＝WEB前端＝＝＝＝＝＝＝＝数据库＝＝＝＝文章标签： spider scrapy django flask bootstrap

本文链接：https://blog.csdn.net/lin14543/article/details/80809810

版权

本文介绍了一个基于Python的分布式爬虫系统，使用Scrapy进行爬虫开发，Flask作为任务调度API，Django构建后台管理，Bootstrap美化前端界面。系统实现了高效的数据抓取、分布式任务调度、实时数据管理和用户交互功能，适用于学习和实践。

摘要由CSDN通过智能技术生成

一. 摘要

本系统主要包括三大部分，Scrapy爬虫部分，Flask任务调度API部分及Django后台管理部分。三大部分相对独立又有一些内在联系。如果想单独学习某一框架可以单独只看某一部分，非常适合刚接触某框架并想深入学习的同学拿来练手。

本系统通过对航空公司官方网站的分析，利用Scrapy,Requests等多种方式来探索获取对应的航班信息并处理入库，异步高并发的架构提高了数据获取的速率。
用Flask+Redis做接口来监控处理爬虫，处理分发任务，以分布式的结构做到保证任务可以不间断，且不受单个爬虫意外的影响。
通过Django来做管理后台展示数据，Django自带的人性化的管理后台以及认证系统提高了软件开发效率。

最终实现了分布式任务调度，爬虫管理员对数据的监控管理，对爬虫的监控管理，对爬虫机子的监控管理，对爬虫任务的监控控管理，普通用户对航班机票信息的搜索查看，对自己关注信息的查看管理等, 这个系统也是本人的毕业设计，所以本篇博客大部分摘自本人的简化版的毕业论文。

二. 数据库及技术框架

数据库以及技术框架介绍网上一搜一大堆，在这里我就不多作介绍了，只是简单说明一下我用到了什么和为什么要用它。

2.1 数据库

该系统的爬虫任务，主机信息和爬虫信息存储于Redis数据库。这些数据都有更新频繁的特征，爬虫任务还需要以队列的形式来提取和存入。爬虫获取到的航班信息数据都统一存储于MySQL数据库，因为在更新航班信息的时候需要判断这条航班信息是否有用户关注，如果有则发送到该用户的邮箱。所以这些数据需要存储于关系型数据库。