![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
国家统计局专栏
Kappuccinno
这个作者很懒,什么都没留下…
展开
-
爬取行政区划(改版)
上一版的行政区划过于复杂,是因为博主那时候还不习惯用beautifulsoup,然后一直用正则表达式硬撑,后面对pandas和beautifulsoup了解的深了,也发现正则表达式直接搜寻网页元素的麻烦之处,所以正好回来可以改一下,直接上代码,注释都有了,然后想细究的可以直接看网页源代码对照一下~import requestsfrom bs4 import BeautifulSoup as bsimport timeimport osimport pandas as pdimport rede原创 2021-10-24 23:57:29 · 1040 阅读 · 1 评论 -
爬取国家统计局2020年五级联动行政区划(精确)
无其他新鲜数据的情况下,这篇应该是国家统计局专栏的最后一篇原创 2021-04-07 20:46:12 · 2219 阅读 · 6 评论 -
爬取国家统计局数据正式篇
首先对之前那篇博客四百多个访问量说声抱歉,由于4月底后专注于本专业的学习就没有管过python的事,今天刚刚考完,就把之前那篇博客的东西系统梳理一下我们的目标是尽量爬取近20年所有的分省年度数据,并且按照国家统计局的父/子文件夹方式,把每一项数据写入excel文件中按指定的路径顺序排好。这里代码不全部发出,会逐步讲解首先导入requests(请求网站相应并打印源码),正则表达式re库,时间time库(主要用time.sleep来给予网站相应时间,避免代码运行过快导致浏览器跟不上),自动化浏览器爬取框架原创 2020-06-21 11:50:34 · 14501 阅读 · 24 评论