- 博客(4)
- 资源 (2)
- 问答 (1)
- 收藏
- 关注
原创 爬取行政区划(改版)
上一版的行政区划过于复杂,是因为博主那时候还不习惯用beautifulsoup,然后一直用正则表达式硬撑,后面对pandas和beautifulsoup了解的深了,也发现正则表达式直接搜寻网页元素的麻烦之处,所以正好回来可以改一下,直接上代码,注释都有了,然后想细究的可以直接看网页源代码对照一下~import requestsfrom bs4 import BeautifulSoup as bsimport timeimport osimport pandas as pdimport rede
2021-10-24 23:57:29 1103 1
原创 分享一个强大的文本分析nltk库
博主最近要做一个文本分析,下了nltk库(pip install nltk),调用里面的一些功能时发现要调用nltk.download功能,结果由于外网的问题服务器连接失败,所以千方百计集合了nltk_data,进而可以用于各种英文的文本分析。感兴趣的可以在下方链接下载:链接:https://pan.baidu.com/s/1SqRwAtXAWE6lOrvnT6JPDQ提取码:eq6r别忘了点个赞-...
2021-04-06 19:22:42 334 1
原创 爬取国家统计局数据正式篇
首先对之前那篇博客四百多个访问量说声抱歉,由于4月底后专注于本专业的学习就没有管过python的事,今天刚刚考完,就把之前那篇博客的东西系统梳理一下我们的目标是尽量爬取近20年所有的分省年度数据,并且按照国家统计局的父/子文件夹方式,把每一项数据写入excel文件中按指定的路径顺序排好。这里代码不全部发出,会逐步讲解首先导入requests(请求网站相应并打印源码),正则表达式re库,时间time库(主要用time.sleep来给予网站相应时间,避免代码运行过快导致浏览器跟不上),自动化浏览器爬取框架
2020-06-21 11:50:34 14778 24
国家统计局分省、国家年度、季度、月度数据
2021-04-09
tkinter treeview同时绑定单击和双击
2022-03-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人