实习期间老板需要对土地数据进行爬取,想来想去就Google到了中国土地网.应该算是种类最齐全的土地数据了。
Github地址:https://github.com/AnTi-anti/china_land/tree/master
目标分析
需要提取的信息就是上方最终表格的信息。不同于上一篇爬取徐州市自然资源和规划局土地数据.这次爬取会涉及到几个难点。
网页结构分析
我们首先进入官网,依次点击土地供应,结果公告。
就进入了接下来这个页面。
因为我们需要的是2015-2020年的数据。而且是根据行政区来依次进行爬取。所以,肯定需要用到selenium进行爬取。和之前那一篇结构类似。也是先爬取土地坐落的链接,然后再爬取链接的详情页面。
难点
第一种情况就是会出现禁止访问500,,一开始用的是