2018年统计用区划代码和城乡划分代码(截止2018年10月31日)(数据及python爬虫代码)

统计局网站的数据汇总。
细粒度,到最后一级(一般为5级,网站上少部分地区为4级)。
数据编码格式为utf8,以便显示名称中的生僻字,请使用合适的文本工具打开。

这里有python爬虫代码和所需库。爬取速度快,网速较好时10分钟左右。

结果

数据格式,下表为前5行

provincecitycountytowncode1code2village根据code2第一位
上海市市辖区嘉定区华亭镇310114111001220袁家桥社区居委会0
上海市市辖区嘉定区华亭镇310114111002121沁园社区居委会1
上海市市辖区嘉定区华亭镇310114111003220华旺社区居委会0
上海市市辖区嘉定区华亭镇310114111201220联一村村委会0
上海市市辖区嘉定区华亭镇310114111203220联三村村委会0

依赖

代码基于python3.6

  • python3.6.6 :python 官网下载,选择适合的版本;

如果平台为windows 64位,依赖库使用命令.txt中命令安装即可。其他平台,使用命令自行下载安装依赖库

pip install --no-index --find-links=.\pack -r requirements.txt  #windows 64位
pip install -r requirements.txt                                 #其他平台

asyncio.Semaphore()值最好设置为较小量(不超过100),以防网站崩溃。

sem = asyncio.Semaphore(60)

执行

python stats_gov_2.py
©️2020 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页