最新爬取携程酒店信息上:思路讲解

本文详细记录了使用Scrapy爬取携程酒店信息的过程,包括遇到的城市编码难题、非标准JSON解析、异步加载的挑战以及Cookie的配置。作者分享了如何构造URL、使用正则表达式抓取关键数据,并提醒了破解携程参数eleven、callback和时间戳的重要性。最后,提供了相关资源链接供读者进一步研究。
摘要由CSDN通过智能技术生成

本以为携程的信息很好爬,但是在我目前能力一般的时候,经过尝试,发现了携程真的有太多坑了,虽然说代码和大佬比起来不是最优的,但是可以完成爬取任务。

在这里记录一下本次学习过程,为后人乘凉。

要爬取所有的酒店信息,就要构造URL,经过观察。

发现了每个城市都有一个独自的暗号,就是城市拼音与一个数字结合,构成URL。

在通过浏览器抓包可知所有的信息都被藏在了以下这个网址

#城市信息
https://hotels.ctrip.com/Domestic/Tool/AjaxGetCitySuggestion.aspx

天真的我以为通过json.loads()就可以完成对城市信息的抓取,但是实际情况是什么也拿不到,初步怀疑是页面中这句话搞的鬼,但是百度了半天也没发现解决办法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小试编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值