Findtrip说明文档
介绍
Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)
Introduction
Findtrip is a webspider for flight tickets by Scrapy,which contains two major china ticket websites ---- Qua & Ctrip
安装
在用户目录下执行,将代码clone到本地
git clone https://github.com/fankcoder/findtrip.git
所需运行环境,请看 ./requirements.txt
本程序使用selenium+ phantomjs模拟浏览器行为获取数据,phantomjs浏览器下载地址(当然使用Firefox也可以,不过打开速度就会慢很多)
数据库使用Mongodb存储,运行需要安装Mongodb,安装传送门
如果仅仅作为测试不需要使用Mongodb,可以注释settings.py下对应行
'''
ITEM_PIPELINES = {
'findtrip.pipelines.MongoDBPipeline': 300,
}
MONGODB_HOST = 'localhost' # Change in prod
MONGODB_PORT = 27017 # Change in prod
MONGODB_DATABASE = "findtrip" # Change in prod
MONGODB_COLLECTION = &