Python3 爬取携程网[1]: 根据好评优先顺序，获取北京五星级酒店列表

icmp_no_request

于 2019-02-18 20:35:41 发布

阅读量5.2k

点赞数 5

分类专栏： Python3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pandalaiscu/article/details/87644235

版权

本文介绍了如何使用Python3爬取携程网上的北京五星级酒店列表，按照好评优先顺序。首先分析页面，寻找动态接口，接着通过requests库发送POST请求，并伪造请求头以避免IP被封，最后解析响应并保存结果到CSV文件。

摘要由CSDN通过智能技术生成

1. 项目目的

俗话说，“巧妇难为无米之炊”。在数据科学道路上，数据获取是数据利用、分析等后续工作中的重要前提。虽然说，如今有许多开源的数据集，但是，锻炼自己从浩如烟海的网络中获取原始数据的能力，对于培养数据科学的基础技能是十分重要的。

2. 需求分析

本文目的是根据好评优先顺序，爬取携程网上的北京五星级酒店列表。

3. 实验环境

语言：Python 3.7
操作系统：MacOS
编程IDE：Pycharm
浏览器：Chrome

4. 具体实现

这一部分是本文的重点，将按照基本爬虫思路进行记录。

4.1 分析页面

对于一个学生而言，拿到一道题，首先要做的工作是熟读题目、进行分析，而不是马上下笔答题。同理，爬虫之前，认真分析要爬取的页面，会使得工作事半功倍。

打开携程网.
在页面上选择：

城市：北京
入住日期：2019-02-19
退房日期：2019-02-20
房间数：1间
住客数：2人
酒店级别：五星级/豪华
如图1所示：

图1 携程主页及酒店信息选择

分析北京五星级酒店页面
点击图1中的“搜索”按钮，在酒店列表页面中选择好评优先排序方式。如图2所示。

图2 北京五星级酒店列表页面

寻找页面接口
因为每一个酒店都是可点击跳转的，即可交互，所以，为动态页面。静态页面可以直接通过页面源码，实现获取信息；动态页面需要找寻接口，然后从其接口的源码中获取信息。
在页面空白处，点击右键，选择“检查”，可以看到页面的源码。找寻接口，必须选中第一行的“Network”选项。
点击页面刷新按钮，即可在Filter中输入“Hotel”，选择“XHR”，即可找到页面接口。

图3 酒店列表页面接口由图3可以看到，左部分列表中的“AjaxHotelList.aspx”就是需要的接口，在右侧的preview中，可以看到，页面上的酒店列表就存放于“hotelPos

最低0.47元/天解锁文章

icmp_no_request

关注

5
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。