- 博客(13)
- 收藏
- 关注
原创 基于Scrapy框架的Weibo爬虫
第八,打开wb.py编辑,设置主爬虫的逻辑,注意为什么使用deepcopy,如果不使用deepcopy复制当前微博item的其他数据,长微博的内容就会与微博id和用户名不匹配。第四,打开item.py编辑,因为我是测试,只抓取微博用户id账号、微博用户名和微博内容,其实通过m.weibo.cn的api可以获取很多字段,这里道理是一样的。第六,打开middlewares.py编辑,读取了cookies.txt,别忘记import json。第五,新建get_cookie.py,用来获取cookie。
2023-07-12 17:00:24 915 4
原创 Python:基于selenium的微博自动爬虫并导出为CSV文件
这是利用业余时间编写的,基于selenium的某社交平台关键字搜索结果全自动爬虫,支持自定义搜素关键字、搜索起始时间、爬取起始页数(以实现中断后接上次继续爬取)。
2023-05-11 13:59:21 1453 6
原创 pandas表格数据清洗:全自动批量处理非结构化的表头并按列索引汇总
在日常工作中可能需要汇总几百个零散的Excel表格进行数据分析,如果这些表格的主体内容结构化程度较高,但表头格式杂乱不一,就需要我们花费一定时间精力去处理。就像去年9月份,我在协助同事汇总几百张销售记录表格时,发现虽然表格主体内容的结构化程度不错,但表头五花八门,有的在表头加上了自己的店铺名称、日期等不需要的内容,有的合并了很多行列,给数据分析造成不便。因为表格众多,逐个修改的工作量太大,便尝试使用pandas对表格数据进行批量清洗处理。【全部放在类中】
2023-04-25 21:43:34 754 1
原创 通过Python实现九九乘法表
最近正在看《流畅的Python》,啃这本书花了不少时间,主要是在思考和理解,慢慢感觉到自己已经很久没有敲代码了,编程这门课最终还是要多实践、多动手,想想还是定期练练手吧。之前看到过一个Python编程题:用Python实现九九乘法表,就它了。
2022-11-03 16:37:57 4235
转载 Python学习手记-argparse库
argparse 模块主要用于处理 Python 命令行参数和选项,程序定义好所需参数后,该模块会通过 sys.argv 解析出那些参数;除此之外,argparse 模块还会自动生成帮助和使用手册,并在用户给程序传入无效参数时报出错误信息。使用 argparse 模块,我们可以轻松的编写出用户友好的命令行接口。
2022-09-12 13:24:04 158
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人