爬取深圳航空航线相关数据

最新推荐文章于 2024-08-23 20:32:39 发布

wgr_1009

最新推荐文章于 2024-08-23 20:32:39 发布

阅读量1.8k

点赞数 2

分类专栏：爬虫文章分享文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_41649689/article/details/88344624

版权

爬虫文章分享专栏收录该内容

2 篇文章 1 订阅

订阅专栏

最近在找工作，说多了都是泪，自己挺喜欢写爬虫的，所以想找一份爬虫的职业，无奈是转行并且学历大专并不够硬，以至现在还是没能如愿，爬取航空数据这是其中一家面试公司给的面试题，给了7天的时间去完成，用了三天的时间已经完成了，结果也已经交付了，再等通知，希望能过，不过感觉还是希望不大，只能继续加油了，写这份代码的时候走了不少弯路，所以写下这篇博客记录下来

1、目标地址：深圳航空机票预订页面http://www.shenzhenair.com/szair_B2C/flightsearch.action?hcType=DC&orgCity=%E5%8C%97%E4%BA%AC&orgCityCode=PEK&dstCity=%E6%B7%B1%E5%9C%B3&dstCityCode=SZX&orgDate=2019-03-08&dstDate=2019-03-08

从这个页面可以看到航班信息的数据，所有航班的价格都在所有价格里面，点开可以看到

2、我们查看一下网页源代码是没有任何我们要找的数据的，因为查询航班需要提交表单，提交表单常用的方式就是post，所以我们就可以判断这是通过异步加载出来的数据，具体的数据我就不找了，这是一个json格式的数据，里面的数据大家感兴趣可以自己找找

在这里插入图片描述

3、在network里面可以看到一个post方式传送的链接，打开之后可以看到每个航班的数据都在　flightInfoList　中

在这里插入图片描述

４、接下来我们分析这个网站的反爬机制，在每次刷新页面或者切换其他日期是在Cookie中的 PV对应的值会加 1，所以在程序中也需要在每次请求之后需要对这个值进行加1操作，初始值可以随意设置，建议20以内，另外 Cookie有过期时间，时间过期之后需要更新程序中的Cookie，并且每隔一段时间之后，session也会过期，此时也需要更新Cookie值，并且Seeion更新之后，PV对应的值也会重 1 开始累加，最后还有一点，每次我们刷新页面时，会需要延迟一点时间，页面才会加载出来，此时就需要在程序里面请求一次最好睡眠一两秒的时间

6、再返回来看一下post方式提交的数据，在form_data里面可以看到，每次查看不同日期的数据时，日期也会随之改变，所以在程序里面，我用了time模块，读取了当前的日期并且格式化form_data日期的格式，每次请求时传递进去，响应完数据处理之后进行加1，为下一次请求赋值，这样就可以请求到不同日期的数据了(这还有个BUG，因为请求日期大于这个月最大日期后就会报错，如：20190332>20190331，这个bug大家可以自行解决，我暂时没做处理)

6、最后附上所有的代码

# coding=gbk

'''
反爬机制： 检测当前IP + 请求头 + cookie
	判断cookie：有过期时间, 过期后更新  self.AlteonP  self.sign_flight
	判断sessionid：sessionid过期 更新 整个cookies 或者 JSsessionid
	每请求一次  cookie中 PV值 加 1
'''
import requests, time, random, json,logging

class ShenZhenAir:
	def __init__(self):

		self.url = 'http://www.shenzhenair.com/szair_B2C/flightSearch.action'

		# 日期的请求时添加  并且方便下一次更新调用
		self.form_data = {
			'condition.orgCityCode': 'PEK',
			'condition.dstCityCode': 'SZX',
			'condition.hcType': 'DC',
		}
		# referer 信息也在请求时添加，需要更新 post 传递参数，User-Agent不能修改，因为User-agent绑定cookie+IP
		self.headers = {
			'Accept': 'application/json, text/javascript, */*; q=0.01',
			'Accept-Encoding': 'gzip, deflate',
			'Accept-Language': 'zh-CN,zh;q=0.9',
			'Content-Length': '129',
			'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
			'Host': 'www.shenzhenair.com',
			'Origin': 'http://www.shenzhenair.com',
			'Proxy-Connection': 'keep-alive',
			'X-Requested-With': 'XMLHttpRequest',
			'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36',
		}
		# cookie值 值取到 PV: 因为每次请求需要 加1 操作
		self.cookie = '自己的cookie值pv:'

		# refer值 也需要拼接，所以只取到中间一部分 日期后面的部分在请求时拼接进去
		self.refer = 'http://www.shenzhenair.com/szair_B2C/flightsearch.action?orgCityCode=PEK&dstCityCode=SZX&orgDate='


	def getJson(self):
		# print(self.headers)
		n = 1
		p = 18
		n_time = time.localtime()
		base_time = int(time.strftime('%Y%m%d', n_time))
		try:
			while n<=7:
				# 时间更新用
				date = str(base_time)[0:4] + '-' + str(base_time)[4:6] + '-' + str(base_time)[6:]

				dstDate = base_time + 1
				conditiondstDate = str(dstDate)[0:4] + '-' + str(dstDate)[4:6] + '-' + str(dstDate)[6:]
				# 更新 传递的 data
				self.form_data['condition.orgDate'] = date
				self.form_data['condition.dstDate'] = conditiondstDate
				# 更新 请求头  信息
				self.headers['Referer'] = self.refer + date + '&hcType=DC'
				self.headers['Cookie'] = self.cookie + str(p)

				print('正在获取%s号信息' % date)
				# 发起请求获取数据
				res = requests.post(self.url, headers=self.headers, data=self.form_data)
				time.sleep(5)
				print(res.request.headers['Cookie'])
				# print(res.cookies)
				# res.encoding = 'utf-8'
				html = json.loads(res.text)
				print('==' * 30)

				# 对获取的数据进行解析
				self.parseJson(html)

				# 数值更新
				n += 1
				p += 1
				base_time += 1
				time.sleep(0.5)
		except json.decoder.JSONDecodeError:
			print('后续处理')

	def parseJson(self, html):
		'''
		对获取的 Json数据进行解析
		:param html:
		:return:
		'''
		if len(html):
			info = html['flightSearchResult']['flightInfoList']
			for i in info:
				flightno = i['flightNo']
				orgdate = i['orgDate']
				orgtime = i['orgTime']
				dsttime = i['dstTime']
				orgcitych = i['orgCityCH']
				dstcitych = i['dstCityCH']

				print('去程: '+orgcitych +'-'+dstcitych + ' '+'机型: {}, 起飞日期: {}, 起飞时间: {}, 落地时间: {}'.format(flightno, orgdate, orgtime, dsttime))
				classinfolist = i['classInfoList']
				for j in classinfolist:
					class_type = j['classCode']
					class_price = j['classPrice']
					print(class_type + '舱' + ': ' + class_price + '元')
				print()
			time.sleep(0.5)
		else:
			print('抱歉，该日期无座位或航班')

	def main(self):
		self.getJson()

if __name__ == '__main__':
	app = ShenZhenAir()
	app.main()