背景需求
有不少朋友问永恒君携程网站的酒店信息怎么抓取,今天这篇文章来分享一下使用web scraper来快速实现抓取携程酒店信息。
例如,在携程官网搜索北京 密云水库的酒店信息,
可以搜索到非常多的酒店信息。需要注意的是,搜索出来显示的总数量,经永恒君测试,这个数量不一定就是下面展示酒店数量。
我们需要爬取每个酒店的名称、位置、评分、评价、点评数量、价格信息。
需求分析
通过仔细观察,我们发现:
1、搜索页面不会把所有的酒店信息全部显示出来,需要用鼠标向下滚动页面之后,才会加载后续的酒店信息。
2、滚动了两页之后,就不会自动进行页面的加载了。这个时候需要点击页面上的“搜索更多酒店”,网页才会进一步加载后续酒店的信息,直到“搜索更多酒店”这个按钮消失。
3、当“搜索更多酒店”这个按钮消失之后,所有的酒店信息才展示完全,即才可以抓取到这所有的酒店信息。(故,酒店数量多的时候,需要的时间会比较长,需要耐心等待)
配置运行
通过上面的分析可以知道,要抓取携程酒店的信息,整个过程需要:
1、向下滚动两次加载页面
2、然后再点击多次“搜索更多酒店”按钮
将两个操作合并起来,就可以实现酒店信息的爬取