python学习：多线程及多进程、协程

最新推荐文章于 2023-06-19 16:17:34 发布

hdxx2022

最新推荐文章于 2023-06-19 16:17:34 发布

阅读量135

点赞数

分类专栏：编程语言 Python 文章标签： python 编程语言 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hdxx2022/article/details/129238845

版权

编程语言同时被 2 个专栏收录

1065 篇文章 7 订阅

订阅专栏

528 篇文章 6 订阅

订阅专栏

很多时候我们写了一个爬虫，实现了需求后会发现了很多值得改进的地方，其中很重要的一点就是爬取速度。本文就通过代码讲解如何使用多进程、多线程、协程来提升爬取速度。注意：我们不深入介绍理论和原理，一切都在代码中。

同步

首先我们写一个简化的爬虫，对各个功能细分，有意识进行函数式编程。下面代码的目的是访问300次百度页面并返回状态码，其中parse_1函数可以设定循环次数，每次循环将当前循环数（从0开始）和url传入parse_2函数。

性能的消耗主要在IO请求中，当单进程单线程模式下请求URL时必然会引起等待

示例代码就是典型的串行逻辑，parse_1将url和循环数传递给parse_2，parse_2请求并返回状态码后parse_1继续迭代一次，重复之前步骤

多线程

因为CPU在执行程序时每个时间刻度上只会存在一个线程，因此多线程实际上提高了进程的使用率从而提高了CPU的使用率

实现多线程的库有很多，这里用concurrent.futures中的ThreadPoolExecutor来演示。介绍ThreadPoolExecutor库是因为它相比其他库代码更简洁

为了方便说明问题，下面代码中如果是新增加的部分，代码行前会加上 > 符号便于观察说明问题，实际运行需要去掉

跟同步相对的就是异步。异步就是彼此独立,在等待某事件的过程中继续做自己的事，不需要等待这一事件完成后再工作。线程就是实现异步的一个方式，也就是说多线程是异步处理异步就意味着不知道处理结果，有时候我们需要了解处理结果，就可以采用回调

Python实现多线程有一个无数人诟病的GIL(全局解释器锁)，但多线程对于爬取网页这种多数属于IO密集型的任务依旧很合适。

多进程

多进程用两个方法实现：ProcessPoolExecutor和multiprocessing

1. ProcessPoolExecutor

和实现多线程的ThreadPoolExecutor类似

可以看到改动了两次类名，代码依旧很简洁，同理也可以添加回调函数

2. multiprocessing

直接看代码，一切都在注释中。

可以看到multiprocessing库的代码稍繁琐，但支持更多的拓展。多进程和多线程确实能够达到加速的目的，但如果遇到IO阻塞会出现线程或者进程的浪费，因此有一个更好的方法……

异步非阻塞

协程+回调配合动态协作就可以达到异步非阻塞的目的，本质只用了一个线程，所以很大程度利用了资源

实现异步非阻塞经典是利用asyncio库+yield，为了方便利用逐渐出现了更上层的封装 aiohttp，要想更好的理解异步非阻塞最好还是深入了解asyncio库。而gevent是一个非常方便实现协程的库

gevent能很大提速，也引入了新的问题：如果我们不想速度太快给服务器造成太大负担怎么办？如果是多进程多线程的建池方法，可以控制池内数量。如果用gevent想要控制速度也有一个不错的方法：建立队列。gevent中也提供了Quene类，下面代码改动较大

结束语

以上就是几种常用的加速方法。如果对代码测试感兴趣可以利用time模块判断运行时间。爬虫的加速是重要技能，但适当控制速度也是爬虫工作者的良好习惯，不要给服务器太大压力

来源：https://www.weidianyuedu.com

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python学习：多线程及多进程、协程

线程就是实现异步的一个方式，也就是说多线程是异步处理异步就意味着不知道处理结果，有时候我们需要了解处理结果，就可以采用回调。实现异步非阻塞经典是利用asyncio库+yield，为了方便利用逐渐出现了更上层的封装 aiohttp，要想更好的理解异步非阻塞最好还是深入了解asyncio库。多进程和多线程确实能够达到加速的目的，但如果遇到IO阻塞会出现线程或者进程的浪费，因此有一个更好的方法……很多时候我们写了一个爬虫，实现了需求后会发现了很多值得改进的地方，其中很重要的一点就是爬取速度。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。