爬虫_Baymax_Bai的博客-CSDN博客

爬虫

关注

文章平均质量分 53

关注数：文章数：2 文章阅读量：898 文章收藏量：3

作者: Baymax_Bai

数据分析师：擅长爬虫（Python）,数据自动化存储（Python+MySql），数据提取及数据处理（Sql/Python/Kusto/Excel），数据可视化（Power BI/Tableau/Excel），版本管理（Github/Git），数据建模及机器学习。Github主页：https://github.com/BaymaxBai01。有事请联系邮箱：baymax18616751972@163.com

展开

Python_协程详解

协程可以很完美的处理IO密集型的问题，但是处理CPU密集型并不是他的长处。要充分发挥CPU的性能，可以结合多进程+多线程的方式。Python并没有提供协程的相关模块和包，需要手动下载：pip install gevent代码如下：from gevent import monkeymonkey.patch_all()import geventfrom gevent.queue import Queueimport requestsurls = ["URL1","URL2","URL3"

原创 2020-09-24 13:58:03 · 288 阅读 · 0 评论
通过多任务队列爬虫，爬取Github commits api数据，并写入数据库

需求通过python执行Kusto数据库query，获取到当前最新的指定的Repo list，在获取到的Repo list中，爬取每个Repo下的所有的当前月份的commits数据，将获取到的json格式数据解析，存储在接口文件中，然后将其存入数据库中。path_app_branch.pyimport datetimeimport timeimport os# 使用局部变量方法导入，控制资源部分导入# __all__ = ['path_file_1','path_file_2','path

原创 2020-08-14 23:06:05 · 611 阅读 · 0 评论

爬虫

作者: Baymax_Bai

Python_协程详解

通过多任务队列爬虫，爬取Github commits api数据，并写入数据库