爬虫
文章平均质量分 53
Baymax_Bai
数据分析师:擅长爬虫(Python),数据自动化存储(Python+MySql),数据提取及数据处理(Sql/Python/Kusto/Excel),数据可视化(Power BI/Tableau/Excel),版本管理(Github/Git),数据建模及机器学习。Github主页:https://github.com/BaymaxBai01。有事请联系邮箱:baymax18616751972@163.com
展开
-
Python_协程详解
协程可以很完美的处理IO密集型的问题,但是处理CPU密集型并不是他的长处。要充分发挥CPU的性能,可以结合多进程+多线程的方式。Python并没有提供协程的相关模块和包,需要手动下载:pip install gevent代码如下:from gevent import monkeymonkey.patch_all()import geventfrom gevent.queue import Queueimport requestsurls = ["URL1","URL2","URL3"原创 2020-09-24 13:58:03 · 288 阅读 · 0 评论 -
通过多任务队列爬虫,爬取Github commits api数据,并写入数据库
需求通过python执行Kusto数据库query,获取到当前最新的指定的Repo list,在获取到的Repo list中,爬取每个Repo下的所有的当前月份的commits数据,将获取到的json格式数据解析,存储在接口文件中,然后将其存入数据库中。path_app_branch.pyimport datetimeimport timeimport os# 使用局部变量方法导入,控制资源部分导入# __all__ = ['path_file_1','path_file_2','path原创 2020-08-14 23:06:05 · 611 阅读 · 0 评论