通过Python爬取国家统计局省市区三级地址库(支持MySQL和JSON格式)

photo-1526379095098-d400fd0bf935?ixlib=rb-0.3.5&s=1cca0d0544f25ab7c6e171d80692ed62&auto=format&fit=crop&w=1189&q=80

数据来源

通过Python脚本,自动抓取国家统计局最新的中国省市区三级城市信息,目前抓取的最新数据为2017年统计用区划代码和城乡划分代码(截止2017年10月31日),我会关注,时刻保持更新。

数据格式

目前支持MySQL格式和JSON格式,其中MySQL的有两个版本,分别为三张表和一张表的,即三张表的为省市区三张表,而一张表的则把省市区三级城市通过关联关系都存在一张表中,可以根据自己的需求进行选择,如果有其他格式需求,可以联系我或者自己修改脚本。

脚本目录结构

├── json                     # 存储JSON数据格式
├── mysql                    # 存储三张表的数据格式
├── mysql_v2                 # 存储一张表的数据格式
├── city_to_json.py          # 抓取JSON数据格式的脚本
├── city_mysql.py            # 抓取三张表的数据格式的脚本
├── city_to_mysql_v2.py      # 抓取一张表的数据格式的考平贝母
├── mysql_init.sql           # 存储三张表的数据的表结构
├── mysql_v2_init            # 存储一张表的数据的表结构

如有需要,直接下载后缀为json或者sql的文件即可直接使用,也可以根据对应的python脚本重新生成相应的省市区三级地址库数据。

抓取数据方法

这里主要使用requestsbeautifulsoup4以及json这三个模块,通过requests发送url页面请求,然后BeautifulSoup分析请求到的页面信息,抓取有效数据,通过json模块,读取以及存储json格式的数据,而mysql的数据则直接通过文件的读写操作即可。

源码分享

这个爬虫脚本比较易读,而且碍于文章篇幅问题,所以,我这里就不贴源码了,直接放到交友网站GitHub上了,有兴趣的可以前往查看。

源码以及数据地址:https://github.com/gxcuizy/Py...

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值