什么是异步
异步编程(简称异步)是许多现代语言都包含的功能,它可以使程序处理多个操作,而无需等待或挂断其中的任何一个。 这是一种有效处理网络或文件IO等任务的明智方法,因为程序的大部分时间都花在等待任务完成上。
假设我们有一个请求100个网络连接的Web抓取应用程序。 如果打开一个连接,等待结果,然后打开下一个连接并等待结果,那么程序的大部分时间都将花在等待网络响应上,而不是在做实际的工作。这个时候,就需要我们异步处理。我们可以一次打开所有100个连接,然后在返回结果时在每个活动连接之间切换。 如果一个连接没有返回结果,就切换到下一个,依此类推,直到所有连接都返回了数据。
异步语法目前已经是python的标准功能,对于高效处理爬虫,处理并发数据,我们应该对它有所了解。
什么时候使用异步
- 工作需要很长时间才能完成。
- 延迟涉及等待IO(磁盘或网络)操作,而不是计算。
- 工作涉及一次执行多个IO操作。
异步编程不同于多线程或多处理。异步操作都在同一个线程中运行,但是它们根据需要相互转化,这使得异步处理比线程或多处理的效率更高。
Python async await and asyncio
带有async关键字前缀的函数成为异步函数,也称为协程。 协程可以使用另一个关键字await,它允许一个协程等待另一个协程的结果而不会阻塞。 在等待的协程返回结果之前,Python在其他正在运行的协程中自由切换。协程只能从其他异步函数中调用。 如果我们不加await而是按原样运行server_ops()或get_server_status(),那么不会得到它们的结果。
在上面的示例中,我们使用两个常见的asyncio函数:
asyncio.run用于从代码的非异步部分启动异步功能,从而启动所有程序的异步活动。
asyncio.gather接受一个或多个异步装饰的函数,运行它们,然后等待所有结果输入。
通过上面的写法,我们就可以同时读取所有站点的信息,然后当结果收集完毕之后,进行之后的操作。
python异步组件
asyncio库提供了创建和管理事件循环的机制。 在Python进程中,一次只能运行一个事件循环,这样做可以使程序员更容易跟踪其中的内容。
将协程提交到事件循环进行处理时,可以获取到Task对象。该对象提供了一种从事件循环外部控制协程行为的方法。 例如,如果需要取消正在运行的任务,可以通过调用Task.cancel方法来完成。
您需要对事件循环及其任务进行多少控制,取决于您所构建的应用程序的复杂程度。 如果您只想提交一组固定的作业以同时运行,就像使用我们的网络抓取工具一样,您不需要太多控制权,只需要启动作业和收集结果即可。
异步VS线程VS多处理
异步与并发有关,而线程和多处理则与并行有关。 并发涉及一次在多个任务之间有效地分配时间。
大多数情况下,异步是线程的良好替代品,因为线程是在Python中实现的。 因为Python不使用OS线程,而是使用自己的协作线程,在解释器中一次仅运行一个线程。 与协作线程相比,异步提供了一些关键优势:
- 异步函数比线程轻得多。 大量异步操作一般比多线程开销少得多得多。
- 异步代码的结构使人们更容易推断任务从何处提取。 这意味着数据争用和线程安全性不再是问题。
- 与线程相比,异步操作可以更轻松地被取消和操纵。
在Python中,多处理一般用在CPU密集的作业,而异步多用在IO密集的作业。 异步实际上与多处理并驾齐驱,我们可以使用asyncio.run_in_executor函数将CPU密集型作业从中央进程委派给进程池,而不会阻塞该中央进程(异步处理)。
如何学习Python异步
学习最好的方法就是自己编写案例, 现在网上有很多很好的例子,你可以多研究他人的一些写法,有些东西看着看着就习惯了,用着用着就会了。 对于asyncio这个库值得仔细阅读。
慢慢地,你将会接触到更多的异步驱动的库和中间件,比如了数据库连接器,网络协议等的异步,非阻塞版本。比如用于Web访问的aiohittp库。
在Python软件包索引中搜索带有async关键字的库基本都是关于异步的。 对于异步编程之类的东西,最好的学习方法是看别人如何使用它,然后自己在应用中模仿它。