点击蓝字,轻松关注
坚持是件多么可怕的事情,已经记不得自己上一次发公众号是什么时候了!最近浏览到一句话“你必须非常努力,才能看来了毫不费劲,可你为什么要看起来毫不费劲呢?”
——谁知道呢?反正我挺费劲
最近在设计一个项目数据库表结构,考虑到后续的数据查询要依据行政区划,业务数据也需要存储它的所在区域位置,因此考虑单独建立一个行政区划表,网上看了很多都是用行政区划代码来标识地名,因此考虑利用Python爬取国家统计局下公布的行政区划代码来作为数据库行政区划表的基础数据。
分析国家统计局网页
国家统计局链接:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/index.html
首先,统计局网站上给出了全国32个省市的行政区划代码。
我们点击进入一个省份;比如四川省:
http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/51.html
可以发现,四川省链接下给出了所有地级市的统计区划代码,点击F12,分析网页结构,可以发现每一个地级市的数据放置在了 class属性为citytr的tr标签下,其下面的两个标签分别给出了该地级市的区划代码和名称。