创新项目实训(三)

创新项目实训(三)

前言

我们组打算搭建一个国内旅游比价网站,
而我负责的部份是各大订酒店网站的数据获取及整理

国内网站:携程、途牛、去哪儿、飞猪、马蜂窝等
国外网站:Booking、Agoda、Trip、Airbnb

主要参考版上的经验分享+自己的修改理解
小白0经验入门记录、边爬边学习ing
有错误或更好的建议都可以指教讨论

飞猪酒店

跟其他比起来稍稍复杂一些,cookie过段时间会过期要重新登入
目前还在尝试看有没有办法解决

采用python+request
目标获取酒店名称、星级、用户评分、评论数、最低价格


先上个结果图

还是阳春的呈现方式

在这里插入图片描述

正片开始

搜索上海的酒店,需要登入才能看到价格

url构成
https://hotel.fliggy.com/hotel_list3.htm?cityName={城市名}&city={程式码}&keywords=&checkIn={入住时间}&checkOut=2{退房时间}&_output_charset=utf8


F12

翻下一页可以看到多了一个hotelList
GET方法,request URL满满的参数

在这里插入图片描述

需要注意的参数

currentPage: 2
totalItem: 20790
city: 310100
detailLinkCity: 310100
cityName: 上海
checkIn: 2021-04-20
checkOut: 2021-04-21
userClientIp:
userSessionId:
totalPage: 1040
_ksTS: 1618812490673_4129
callback: jsonp4130

  • City跟detailLinkCity是行政区划代码,网上搜得到档案,下载直接调用就行
  • 更改currentPage可以获取其他页面的数据
  • _ksTS 跟callback是特别的时间戳参数,网上搜到构造办法
 ktsts = time.time()
_ksTS = '%s_%s' % (int(ktsts * 1000), str(ktsts)[-3:])
 callback = "jsonp%s" % (int(str(ktsts)[-3:]) + 1)

再来我们来获取totalPage跟totalItem
搜一下可以看到Doc有个hotel_List是搜索结果的第一页
里面也有totlaItem

在这里插入图片描述
这样先获取这页文档拿到totalItem

在这里插入图片描述

def getTotal(city,checkin,checkout):
    cityCode = getCityId(city)
    url = 'https://hotel.fliggy.com/hotel_list3.htm?_input_charset=utf-8&cityName={}&city={}&keywords=&checkIn={}&checkOut={}&_output_charset=utf8'.format(p.quote(city),cityCode,checkin,checkout)
    header ={
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36 Edg/89.0.774.75',
        'cookie': ' 自己的cookie'
    }
    param ={
        '_input_charset': 'utf-8',
        'cityName': city,
        'city': cityCode,
        'keywords': '',
        'checkIn': checkin,
        'checkOut': checkout,
        '_output_charset': 'utf8'
    }
    res =requests.get(url=url,headers=header,params=param)
    # list转str,找总数
    total_item = "".join(re.findall(r'totalItem\"\:(.*?)\,', res.text))
    page = math.ceil(int(total_item) / 20)
    return total_item,page

这样所有的参数就有了

获得数据后,提取所需的资料

在这里插入图片描述

	#正则表达式
	ID_Name = re.findall(r'\"shid\"\:(.*?)\,\"name\"\:\"(.*?)\"\,', list)
    Score = re.findall(r'\"rateScore\"\:\"(.*?)\"\,', list)
    Star = re.findall(r'\"star\"\:\"(.*?)\"\,', list)
    Price = re.findall(r'\"priceDesp\"\:\"(.*?)\"\,', list)
    Comment = re.findall(r'\"rateNum\"\:(.*?)\,', list)
    url = 'https://hotel.fliggy.com/hotel_detail2.htm?shid={}&city={}&checkIn={}&checkOut={}&searchId=4811e8b3defc48fe92d7698b9842bbb5&_output_charset=utf8'.format(ID_Name[i][0],citycode,checkin,checkout)

最后for循环获得所有页面即可
(更改每页的currentPage就完成了)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值