python爬取去哪儿网机票_GitHub - 4ilde/findtrip: 机票爬虫(去哪儿和携程网)。flight tickets multiple webspider.(scrapy + se...

Findtrip是一个基于Scrapy的机票爬虫项目,它整合了去哪儿和携程两大机票网站的数据。该项目利用selenium+ phantomjs模拟浏览器行为获取数据,并通过Mongodb存储爬取的机票信息。用户可以通过注释settings.py中的相应行来选择是否使用Mongodb。运行该项目,用户可以分别或同时爬取去哪儿网和携程网的机票数据。
摘要由CSDN通过智能技术生成

Findtrip说明文档

介绍

Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)

Introduction

Findtrip is a webspider for flight tickets by Scrapy,which contains two major china ticket websites ---- Qua & Ctrip

安装

在用户目录下执行,将代码clone到本地

git clone https://github.com/fankcoder/findtrip.git

所需运行环境,请看 ./requirements.txt

本程序使用selenium+ phantomjs模拟浏览器行为获取数据,phantomjs浏览器下载地址(当然使用Firefox也可以,不过打开速度就会慢很多)

数据库使用Mongodb存储,运行需要安装Mongodb,安装传送门

如果仅仅作为测试不需要使用Mongodb,可以注释settings.py下对应行

'''

ITEM_PIPELINES = {

'findtrip.pipelines.MongoDBPipeline': 300,

}

MONGODB_HOST = 'localhost' # Change in prod

MONGODB_PORT = 27017 # Change in prod

MONGODB_DATABASE = "findtrip" # Change in prod

MONGODB_COLLECTION = &

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值