业务部门需要更新最新的全国区划信息数据,建立基础数据库,权威数据当然是国家统计局的官方数据
http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/
这里要做的,就是将其爬取下来。
环境准备
我们使用python工具爬取数据,并将其保存为Excel:
-
python环境 ,略过;
-
相关依赖requests、BeautifulSoup、pandas、threading、os;
requests 用于web请求,并获取页面数据;
BeautifulSoup 提取页面数据;
pandas 数据分析,此处仅仅用来方便数据导出;
threading 多线程爬取;
代码片段
1、定义地址信息对象
封装解析后的数据,areainfo
class areainfo():
def __init__(self):
self.areacode='' #行政区划编码
self.areaname='' #行政区划名称