1. 前言
在网站建设中一般会用到全国行政区域划分,以便于做区域数据分析。
下面我们用 Python 来爬取行政区域数据,数据来源为比较权威的国家统计局。爬取的页面为2020年统计用区划代码和城乡划分代码。
这里有个疑问,为啥统计局只提供了网页版呢?提供文件版岂不是更方便大众。欢迎了解的小伙伴给我留言。
2. 网站分析
在爬取数据之前要做的便是网站分析,通过分析来判断使用何种方式来爬取。
2.1 省份页面
一个静态页面,其二级页面使用的是相对地址,通过 class=provincetr 的tr
元素来定位
省份页面
2.2 城市页面
一个静态页面,其二级页面使用的是相对地址,通过 class=citytr 的tr
元素来定位
城市页面
2.3 区县页面
一个静态页面,其二级页面使用的是相对地址,通过 class=countytr 的tr
元素来定位