前面咱们也写了好几篇爬虫的文章,都是些数据量不是很多的例子。那如果遇到数据量比较大的时候怎么办提高速度和效率呢。今天的这篇会给你答案。
一、线程、进程、协程的简介
1.同步、异步、并行、并发
同步:各个任务不是独自运行的,任务之间有一定的运行顺序
异步:各个任务是独立运行的,一个任务的运行不收另一个任务的影响
并行:同一时刻发生若干事情的情况
并发:同一时间段发生若干事情。
这里可能并行和并发不是很好记忆,我来举个例子把。小明正在写作业,小红正在看电视。两件事情同时进行,这叫并行。如果小明看一眼电视,看一眼作业,这叫做并发,并不能同时做这两件事,只不过这两件事切换比较快,看起来像是同时在发生。
在单核CPU时,所有任务都是以并发的形式来运行的,
在多核CPU情况下,才会有真正的并行的形式运行任务。
2.线程
- 操作系统进行运算的最小单位
- 线程是独立调度和分派的基本单位
- 同一个进程中的所有线程可以共享该进程的资源
- 同一进程中的所有线程均可并发执行
- 由于Python中GIL(全局解释器锁)的存在,线程之间只能以并发执行存在。
3.进程
- 系统进行资源分配和调度的基本单位
- 进程是一个实体。每一个进程都有它自己的地址空间,一般情况下,包括文本区域(text region)、数据区域(data region)和堆栈(stack region)
- 程序是一个没有生命的实体,只有处理器赋予程序生命时(操作系统执行之),它才能成为一个活动的实体,我们称其为进程
- 运行中的进程可能存在以下三种情况:就绪、运行、阻塞
4.协程
- 一种用户态的轻量级线程。
- 协程方便切换控制流
- 具有很好的高扩展性和高并发行
- 本质是单线程
二、多线程、多进程、多协程者的区别
图1 多线程的运行方式
图2 多进程的运行方式
图3 多协程的运行方式