本以为携程的信息很好爬,但是在我目前能力一般的时候,经过尝试,发现了携程真的有太多坑了,虽然说代码和大佬比起来不是最优的,但是可以完成爬取任务。
在这里记录一下本次学习过程,为后人乘凉。
要爬取所有的酒店信息,就要构造URL,经过观察。
发现了每个城市都有一个独自的暗号,就是城市拼音与一个数字结合,构成URL。
在通过浏览器抓包可知所有的信息都被藏在了以下这个网址
#城市信息
https://hotels.ctrip.com/Domestic/Tool/AjaxGetCitySuggestion.aspx
天真的我以为通过json.loads()就可以完成对城市信息的抓取,但是实际情况是什么也拿不到,初步怀疑是页面中这句话搞的鬼,但是百度了半天也没发现解决办法。