python异步爬虫设置时间间隔_如何让 python 处理速度翻倍？内含代码

最新推荐文章于 2024-08-27 08:27:08 发布

寒阳碎雪

最新推荐文章于 2024-08-27 08:27:08 发布

阅读量1.8k

点赞数

文章标签： python异步爬虫设置时间间隔

本文链接：https://blog.csdn.net/weixin_35942339/article/details/113512616

版权

本文介绍了Python协程的概念，对比了进程、线程、同步与异步、阻塞与非阻塞的区别，并详细探讨了协程的原理和使用场景。通过一个实战案例展示了如何使用aiohttp库进行异步网络请求，从而提高处理速度。在重构网络请求模块后，处理时间从816s降低到424s，实现了效率翻倍。

摘要由CSDN通过智能技术生成

阿里妹导读：作为在日常开发生产中非常实用的语言，有必要掌握一些python用法，比如爬虫、网络请求等场景，很是实用。但python是单线程的，如何提高python的处理速度，是一个很重要的问题，这个问题的一个关键技术，叫协程。本篇文章，讲讲python协程的理解与使用，主要是针对网络请求这个模块做一个梳理，希望能帮到有需要的同学。

概念篇

在理解协程这个概念及其作用场景前，先要了解几个基本的关于操作系统的概念，主要是进程、线程、同步、异步、阻塞、非阻塞，了解这几个概念，不仅是对协程这个场景，诸如消息队列、缓存等，都有一定的帮助。接下来，编者就自己的理解和网上查询的材料，做一个总结。

进程

在面试的时候，我们都会记住一个概念，进程是系统资源分配的最小单位。是的，系统由一个个程序，也就是进程组成的，一般情况下，分为文本区域、数据区域和堆栈区域。

文本区域存储处理器执行的代码(机器码)，通常来说，这是一个只读区域，防止运行的程序被意外修改。

数据区域存储所有的变量和动态分配的内存，又细分为初始化的数据区(所有初始化的全局、静态、常量，以及外部变量)和为初始化的数据区(初始化为0的全局变量和静态变量)，初始化的变量最初保存在文本区，程序启动后被拷贝到初始化的数据区。

堆栈区域存储着活动过程调用的指令和本地变量，在地址空间里，栈区紧连着堆区，他们的增长方向相反，内存是线性的，所以我们代码放在低地址的地方，由低向高增长，栈区大小不可预测，随开随用，因此放在高地址的地方，由高向低增长。当堆和栈指针重合的时候，意味着内存耗尽，造成内存溢出。

进程的创建和销毁都是相对于系统资源，非常消耗资源，是一种比较昂贵的操作。进程为了自身能得到运行，必须要抢占式的争夺CPU。对于单核CPU来说，在同一时间只能执行一个进程的代码，所以在单核CPU上实现多进程，是通过CPU快速的切换不同进程，看上去就像是多个进程在同时进行。

由于进程间是隔离的，各自拥有自己的内存内存资源，相比于线程的共同共享内存来说，相对安全，不同进程之间的数据只能通过 IPC(Inter-Process Communication) 进行通信共享。

线程

线程是CPU调度的最小单位。如果进程是一个容器，线程就是运行在容器里面的程序，线程是属于进程的，同个进程的多个线程共享进程的内存地址空间。

线程间的通信可以直接通过全局变量进行通信，所以相对来说，线程间通信是不太安全的，因此引入了各种锁的场景，不在这里阐述。