自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 爬取国家统计局2020年五级联动行政区划(精确)

无其他新鲜数据的情况下,这篇应该是国家统计局专栏的最后一篇

2021-04-07 20:46:12 2212 6

原创 爬取行政区划(改版)

上一版的行政区划过于复杂,是因为博主那时候还不习惯用beautifulsoup,然后一直用正则表达式硬撑,后面对pandas和beautifulsoup了解的深了,也发现正则表达式直接搜寻网页元素的麻烦之处,所以正好回来可以改一下,直接上代码,注释都有了,然后想细究的可以直接看网页源代码对照一下~import requestsfrom bs4 import BeautifulSoup as bsimport timeimport osimport pandas as pdimport rede

2021-10-24 23:57:29 1033 1

原创 分享一个强大的文本分析nltk库

博主最近要做一个文本分析,下了nltk库(pip install nltk),调用里面的一些功能时发现要调用nltk.download功能,结果由于外网的问题服务器连接失败,所以千方百计集合了nltk_data,进而可以用于各种英文的文本分析。感兴趣的可以在下方链接下载:链接:https://pan.baidu.com/s/1SqRwAtXAWE6lOrvnT6JPDQ提取码:eq6r别忘了点个赞-...

2021-04-06 19:22:42 297 1

原创 爬取国家统计局数据正式篇

首先对之前那篇博客四百多个访问量说声抱歉,由于4月底后专注于本专业的学习就没有管过python的事,今天刚刚考完,就把之前那篇博客的东西系统梳理一下我们的目标是尽量爬取近20年所有的分省年度数据,并且按照国家统计局的父/子文件夹方式,把每一项数据写入excel文件中按指定的路径顺序排好。这里代码不全部发出,会逐步讲解首先导入requests(请求网站相应并打印源码),正则表达式re库,时间time库(主要用time.sleep来给予网站相应时间,避免代码运行过快导致浏览器跟不上),自动化浏览器爬取框架

2020-06-21 11:50:34 14475 24

国家统计局分省、国家年度、季度、月度数据

从国家统计局爬取,年度数据为2000-2019数据,季度为最近18季度,月度为最近36个月,csv文件,路径和国家统计局官网内部的相对路径一致,已去掉内容全为空的表

2021-04-09

国家统计局2020年行政区划五级联动

从国家统计局爬取,压缩包内含2020年省级、地级、县级、乡级、村级的所有信息

2021-04-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除