mafengwo
马蜂窝自由行
免责声明:本项目旨在学习Scrapy爬虫框架和MongoDB数据库,不可使用于商业和个人其他意图。若使用不当,均由个人承担。
1.项目简介
1)项目包括两个爬虫,主要是爬取旅游网站(马蜂窝)自由行页面的自由行发起人相关信息,自由行出发时间、出发地点、目的地、持续时间、关注度、期望人数,计划描述等
2)项目由于缺乏代理的原因,爬取存储速度大概每分钟爬取30个页面内容,设置允许同时接纳16个请求
3)对爬取数据整理,可视化展现
2.项目技术点
1)主体由scrapy框架搭建而成
2)实现了代理ip池与框架的对接,同时构建随机请求头
3)以post表单形式模拟登陆
4)代理池的制作用Flask搭建了简单服务器,爬取免费代理运用了进程池技术,检测代理使用了异步请求,构建事件循环的模式批量检测,代理ip存储在mysql中
5)爬取网页内容存储于mongodb
6)数据清洗简单运用了numpy等工具
7)数据可视化使用的是matplotlib来展现
3.使用说明
1)run.py是所有程序的中心执行程序