元旦快要来了就意味着假期快要来了。有没有计划好元旦去哪里散心呢?
今天就用爬虫带你分析以下国内最热门城市哪些值得你去~
首先我们的目标网站是穷游网。
https://place.qyer.com/china/citylist-0-0-1/
我们要抓取的数据是这些热门城市的名称、排行榜、旅游人次和旅游景点。
老规矩,爬虫四部曲:
1.找爬虫所在url地址(系统性的网页分析)
2.发送网络请求
3.数据解析(我们所需数据)
4.保存数据
1.找爬虫所在url地址(系统性的网页分析)
首先我们来分析网页属于动态加载还是静态加载。教你一招最简单的办法。
如上图找到浏览器设置,禁止javascript加载,如果网页还如先前一般正常显示。即说明该网页属于静态加载。
2.咱们今天要分析的网站就属于一个静态加载。所以目标url就可以确定下来,即浏览器导航栏地址
url= https://place.qyer.com/china/citylist-0-0-1/
3.伪装成浏览器发送请求。为了防止网站反爬,我们需要对爬虫代码进行伪装,打开浏览器开发者模式可以看到网站发送请求时会携带这么多的参数。这里我们只需refer、user-agen