爬虫-通过几个例子来说明并发以及多线程

并发

什么是并发?并发,在操作系统中,是指一个时间段中有几个程序都处于已启动运行到运行完毕之间,且这几个程序都是在同一个处理机上运行,但任一个时刻点上只有一个程序在处理机上运行。

嗯,字认识,但是连在一起就有点够呛,哈哈,开个玩笑。

我们通过几个例子来较为深刻的理解一下:

第一个例子

我们用requests 成功请求一个网页,实际上requests做了三件事:

  1. 根据链接、参数登组合成一个请求
  2. 把这个请求发往要爬取的网站,等待网站响应
  3. 网站响应后,把结果包装成一个响应对象方便我们使用

 从上面的图中我们可以看出,步骤2花费的时间是最长的,取决于被爬虫网站的性能,这个时间可能达到几十到几百毫秒。相比之下,步骤1、3可能只需要1毫秒左右的时间,比上面这张图的对比还要夸张。

针对这个程序:步骤2也可以代表程序是空闲的,因为在等待网站的响应,因此代码真正运行的时间很短。

第二个例子

我们连续用requests请求三个网页A、B、C,执行效果如下

 这个相当于把三个请求串行起来执行,他们之间是互相依赖的,A执行完B执行然后C执行,时间上肯定是叠加的。

第三个例子

第一个例子中,顺序必须是1-2-3,因为他们之间是强依赖,但是在第二个例子中,步骤为什么必须是A1-A2-A3-B1-B2-B3-C1-C2-C3呢?B1和A3之间是没有依赖关系的。这个时候我们的并发出现了,步骤如下:

 这张图是什么意思呢?其实就是:在「爬取网页 A」这个过程进行到步骤 2 的时候,程序空闲下来了,这时我们让「爬取网页 B」的步骤 1 开始执行;同样的,「爬取网页 B」的步骤 1 执行完,程序又空闲下来,于是我们安排「爬取网页 C」开始执行。

可以看到,仅仅是利用爬虫等待的时间,爬虫的效率就提升了数倍,当爬取的数据更大的时候,爬虫的效率是不是更加的显著。

并发和多线程

并发的结果看起来确实很好,但是前面例子三的步骤看起来很复杂,我们实际编写代码的时候难道要考虑计算机将事情 A 做得怎么样了,有没有空闲?如果空闲就去做事情 B?想想都头大。

这个时候多线程就派上用场了,这个可是操作系统赋予的最强能力之一。

操作系统提供了两个东西:进程和线程,利用他们两个我们可以轻易的实现并发,而不用去考虑上面头大的问题。

我们来看两个代码

import time
import requests

# 假设我们要爬取 30 个网页
urls = ["https://wpblog.x0y1.com/?p=34"] * 30
session = requests.Session()

start = time.time()

results = []
for url in urls:
  r = session.get(url)
  results.append(r.text)

end = time.time()
print("花费", end-start, "秒")

然后我们把这个代码用多线程形式改写一下

import time
import requests
from concurrent import futures

# 假设我们要爬取 30 个网页
urls = ["https://wpblog.x0y1.com/?p=34"] * 30
executor = futures.ThreadPoolExecutor(max_workers=5)
session = requests.Session()

start = time.time()

fs = []
for url in urls:
  f = executor.submit(session.get, url)
  fs.append(f)

futures.wait(fs)
result = [f.result().text for f in fs]
end = time.time()
print("花费", end-start, "秒")

大家可以在自己电脑上运行下,下面的运行时间比上面的运行时间缩短好几倍。

代码详解

针对上面改写的代码,我们做个详细的分析解读:

初始化一个线程池

# 导入 concurrent.futures 这个包
from concurrent import futures

# 初始化一个线程池,最大的同时任务数是 5
executor = futures.ThreadPoolExecutor(max_workers=5)

concurrent是python自带的库,这库具有线程池和进程池、管理并行编程任务、处理非确定性的执行流程、进程、线程同步等功能。

线程 池限制了最多同时运行的线程数。比如说我们初始化一个最大任务数为5的线程池,这样使我们提交了100个任务到这个池子里,同时运行的也只有5个,因此代码中max_workers=5的作用就是这个。

提交任务到线程池

fs = []
for url in urls:
  # 提交任务到线程池
  f = executor.submit(session.get, url)
  fs.append(f)

executor是我们刚刚初始化的线程池,调用了executor的submit()方法往里面提交任务。第一个参数session.get是提交要运行的函数,第二个url是提交的函数运行时的参数。

executor.submit()方法会返回一个返回值,其是一个future对象,我们把他赋值给变量f。

future对象是什么

future 这个单词的原意是 未来。在并发编程的领域,future 对象这个东西通常保存着函数调用完成时的结果。

我们结合实例再试着理解一遍。

比如在上面我们告诉线程池,要调用 session.get 方法,参数为 url。如果线程池还没满,程序就启动一个线程开始执行它;如果线程池满了,就等待有任务完成被挪出线程池,再把这个任务放到那个线程上运行。

但是我们不知道 session.get(url) 在多久之后被完成,那我们要的结果保存在什么地方呢?答案就是 future 对象。如果某一个任务已经完成,那么通过这个任务被提交时返回给我们的 future 对象,就可以拿到这个任务的结果。

等待代码全部完成

# 等待这些任务全部完成
futures.wait(fs)

fs 是保存了上面所有任务的 future 对象的列表,futures.wait() 方法可以等待直到 fs 里面所有的 future 对象都有结果为止。

获取所有任务的结果

# 获取任务的结果
result = [f.result().text for f in fs]

fs是保存了上面所有任务的future对象的列表,我们遍历所有任务的future对象,调用future对象的result()方法,就能得到任务的结果。

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫多线程并发是指使用多个线程同时执行爬取任务,以提高爬取效率。通过并发执行,可以在同一时间内处理多个请求和响应,从而加快网页的下载和解析过程。 在Python中,可以使用多种方式实现爬虫多线程并发。其中一种常见的方式是使用`threading`模块创建线程并管理线程的执行。通过创建多个线程,每个线程负责执行一个爬取任务,可以同时进行多个任务的爬取,提高整体的效率。 另一种方式是使用线程池。线程池可以预先创建一定数量的线程,并将任务分发给这些线程进行执行。通过线程池,可以有效地管理线程的创建和销毁,避免频繁地创建和销毁线程带来的开销。 多线程并发爬取的优点包括提高爬取效率、缩短爬取时间,同时还可以更好地利用计算机的多核处理能力。然而,需要注意的是,在进行多线程并发爬取时,需要考虑线程安全性和资源竞争的问题,避免出现数据错乱或者死锁等问题。 总结来说,Python爬虫多线程并发是一种提高爬取效率的方法,通过同时执行多个爬取任务,可以加快网页的下载和解析过程,从而更快地获取所需的数据。可以使用`threading`模块或线程池来实现多线程并发,但需要注意线程安全性和资源竞争的问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Python并发编程相关及在爬虫实战中的使用](https://blog.csdn.net/weixin_44327634/article/details/123948849)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [python并发爬虫——多线程、线程池实现](https://blog.csdn.net/sixteen_16/article/details/116176587)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值