Python爬虫中多线程、多进程、多协程的介绍和对比

本文介绍了Python爬虫中多线程、多进程和多协程的概念,对比了它们的区别。在多核CPU环境下,多进程能充分利用资源,多线程上下文切换快但易丢失数据,而多协程适合I/O密集型任务。通过爬取豆瓣top250电影的实验,展示了三种方式的速度差异,推荐在I/O频繁场景下使用协程。
摘要由CSDN通过智能技术生成

前面咱们也写了好几篇爬虫的文章,都是些数据量不是很多的例子。那如果遇到数据量比较大的时候怎么办提高速度和效率呢。今天的这篇会给你答案。

一、线程、进程、协程的简介

1.同步、异步、并行、并发

同步:各个任务不是独自运行的,任务之间有一定的运行顺序
异步:各个任务是独立运行的,一个任务的运行不收另一个任务的影响
并行:同一时刻发生若干事情的情况
并发:同一时间段发生若干事情。

这里可能并行和并发不是很好记忆,我来举个例子把。小明正在写作业,小红正在看电视。两件事情同时进行,这叫并行。如果小明看一眼电视,看一眼作业,这叫做并发,并不能同时做这两件事,只不过这两件事切换比较快,看起来像是同时在发生。

在单核CPU时,所有任务都是以并发的形式来运行的,
在多核CPU情况下,才会有真正的并行的形式运行任务。

2.线程

  • 操作系统进行运算的最小单位
  • 线程是独立调度和分派的基本单位
  • 同一个进程中的所有线程可以共享该进程的资源
  • 同一进程中的所有线程均可并发执行
  • 由于Python中GIL(全局解释器锁)的存在,线程之间只能以并发执行存在。

3.进程

  • 系统进行资源分配和调度的基本单位
  • 进程是一个实体。每一个进程都有它自己的地址空间,一般情况下,包括文本区域(text region)、数据区域(data region)和堆栈(stack region)
  • 程序是一个没有生命的实体,只有处理器赋予程序生命时(操作系统执行之),它才能成为一个活动的实体,我们称其为进程
  • 运行中的进程可能存在以下三种情况:就绪、运行、阻塞

4.协程

  • 一种用户态的轻量级线程。
  • 协程方便切换控制流
  • 具有很好的高扩展性和高并发行
  • 本质是单线程

二、多线程、多进程、多协程者的区别

图1 多线程的运行方式多线程的运行方式
图2 多进程的运行方式
在这里插入图片描述
图3 多协程的运行方式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值