数据可视化框架mysql_freeTravel: scrapy框架+代理ip池+mongo/mysql+数据可视化(matplotlib)...

该项目使用Scrapy爬虫框架和MongoDB数据库,抓取马蜂窝自由行信息,包括发起人、出发时间、地点、目的地等。通过Flask搭建代理IP池,实现模拟登录和数据存储。数据清洗后用matplotlib进行可视化展示。
摘要由CSDN通过智能技术生成

mafengwo

马蜂窝自由行

免责声明:本项目旨在学习Scrapy爬虫框架和MongoDB数据库,不可使用于商业和个人其他意图。若使用不当,均由个人承担。

1.项目简介

1)项目包括两个爬虫,主要是爬取旅游网站(马蜂窝)自由行页面的自由行发起人相关信息,自由行出发时间、出发地点、目的地、持续时间、关注度、期望人数,计划描述等

2)项目由于缺乏代理的原因,爬取存储速度大概每分钟爬取30个页面内容,设置允许同时接纳16个请求

3)对爬取数据整理,可视化展现

2.项目技术点

1)主体由scrapy框架搭建而成

2)实现了代理ip池与框架的对接,同时构建随机请求头

3)以post表单形式模拟登陆

4)代理池的制作用Flask搭建了简单服务器,爬取免费代理运用了进程池技术,检测代理使用了异步请求,构建事件循环的模式批量检测,代理ip存储在mysql中

5)爬取网页内容存储于mongodb

6)数据清洗简单运用了numpy等工具

7)数据可视化使用的是matplotlib来展现

3.使用说明

1)run.py是所有程序的中心执行程序

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值