openoffice转化太慢且不能多线程_总是觉得python爬取数据太慢？这些方法轻松提高爬取性能...

最新推荐文章于 2021-02-26 20:54:41 发布

weixin_39713578

最新推荐文章于 2021-02-26 20:54:41 发布

阅读量290

点赞数

文章标签： openoffice转化太慢且不能多线程

本文链接：https://blog.csdn.net/weixin_39713578/article/details/111673963

版权

爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。

需要强调的是：对于单线程下串行N个任务，并不完全等同于低效，如果这N个任务都是纯计算的任务，那么该线程对cpu的利用率仍然会很高，之所以单线程下串行多个爬虫任务低效，是因为爬虫任务是明显的IO密集型程序。

那么该如何提高爬取性能呢？且看下述概念：

同步、异步、回调机制

1、同步调用：

即提交一个任务后就在原地等待任务结束，等到拿到任务的结果后再继续下一行代码，效率低下

import requestsdef parse_page(res): print('解析 %s' %(len(res)))def get_page(url): print('下载 %s' %url) response=requests.get(url) if response.status_code == 200: return response.texturls=['https://www.baidu.com/','http://www.sina.com.cn/','https://www.python.org']for url in urls: res

最低0.47元/天解锁文章

weixin_39713578

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
openoffice转化太慢且不能多线程_总是觉得python爬取数据太慢？这些方法轻松提高爬取性能...

爬虫的本质就是一个socket客户端与服务端的通信过程，如果我们有多个url待爬取，只用一个线程且采用串行的方式执行，那只能等待爬取一个结束后才能继续下一个，效率会非常低。需要强调的是：对于单线程下串行N个任务，并不完全等同于低效，如果这N个任务都是纯计算的任务，那么该线程对cpu的利用率仍然会很高，之所以单线程下串行多个爬虫任务低效，是因为爬虫任务是明显的IO密集型程序。那么该如何提高爬取性能呢...
复制链接

扫一扫