Python 线程池/进程池 内存管理

本文介绍了一个使用concurrent.futures线程池爬取网站数据时遇到的内存溢出问题及解决方案。通过限制并行任务数量和及时清理已完成任务,有效降低了内存占用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

concurrent.futures 线程池/进程池内存管理

起因

之前进行爬虫任务的时候遇到了这么一个需求,1G 内存的机器跑爬虫,爬取一个网站的数据,之前使用的是这样一种方式:

 futures = list()
 with ThreadPool(max_workers=20) as exc:
      for tr in table.select("tr"):

          # 取线程执行结果
          future = exc.submit(self.get_asn, tr.strings)
          futures.append(future)

# 使用 as_completed 异步方式处理完成任务的线程
for future in as_completed(futures):
    result = future.result()
    # 拼接 asn.json 的 path
    file_path = result["asn"] + ".json"
    asn_file = os.path.join(self.base_data_path, file_path)

    with open(asn_file, "w", encoding="utf8") as f:
        f.write(json.dumps(result))

使用了 concurrent.futures 的 ThreadPoolExecutor submit 方法,因为开启了20个线程同时爬取,连接网站的速度还很快,任务很快就被处理完成了,可以看到我时完成一个任务的时候就进行写文件了操作,但是2分钟后很快程序就终止了,监控程序发现时由于程序内存占用达到 80% 被系统 Kill 掉了。

  • 为什么内存会爆呢?监控内存显示,程序处理完任务之后,内存并没有被立刻释放,而是有很长时间延迟之后才被释放( 在此吐槽 python GC)

改进方法:

参考 https://stackoverflow.com/questions/34770169/using-concurrent-futures-without-running-out-of-ram

# 允许同时进行的工作数
MAX_JOBS_IN_QUEUE = 1000


tr_list = table.select("tr")
tr_left = len(tr_list) - 1  # <----
tr_iter = iter(tr_list)  # <------
jobs = dict()

  with ThreadPool(max_workers=20) as exc:
      while tr_left:
          print("#" * 100, "TASK: {} <===>  JOB: {}".format(tr_left, len(jobs)))
          for tr in tr_iter:
              # 取线程执行结果
              job = exc.submit(self.get_asn, tr.strings)
              jobs[job] = tr
              if len(jobs) > MAX_JOBS_IN_QUEUE:
                  break  # limit the job submission for now job

          # 使用 as_completed 异步方式处理任务线程
          for job in as_completed(jobs):
              tr_left -= 1  # one down - many to go...   <---
              result = job.result()
              # 从字典中删除结果,因为我们不需要存储它
              del jobs[job]

              # 拼接 asn.json 的 path
              file_path = result["asn"] + ".json"
              asn_file = os.path.join(self.base_data_path, file_path)

              with open(asn_file, "w", encoding="utf8") as f:
                  f.write(json.dumps(result))
              break

改进后内存在切换 html 爬取的时候,会偶尔会升高一下,最高 65%,平均在 35% 左右。

  • ProcessPoolExecutor 进程同理
<think>好的,用户想了解线程池进程池的区别对比。首先,我需要回忆一下线程和进程的基本概念,以及它们在Python中的具体实现。记得线程是操作系统调度的最小单位,而进程是资源分配的最小单位。不过Python由于GIL的存在,线程在CPU密集型任务中可能效率不高,这时候可能需要用进程池来充分利用多核CPU。 接下来,用户的问题是关于线程池进程池的区别,所以需要从资源开销、并发能力、适用场景、数据通信、创建限制等方面来对比。根据之前看到的引用资料,比如引用[3]提到线程池Python中因为GIL的问题,无法充分利用多核处理器,而进程池可以。同时引用[2]提到不能无限开进程或线程,所以用池来管理。 还需要考虑资源开销,进程的创建和销毁比线程更消耗资源,所以进程池适合处理计算密集型任务,而线程池适合IO密集型任务,比如Selenium的自动化测试,这里引用[3]有提到线程池在IO等待上可能并不显著提升性能,但可能还是比单线程好。 数据共享方面,线程之间共享内存,而进程之间需要IPC机制,比如队列或者管道,这可能影响编程复杂度。引用[4]中的代码示例展示了线程池的使用,但进程池的代码结构类似,只是用ProcessPoolExecutor。 另外,创建限制方面,系统对进程数有限制,而线程数虽然理论上可以更多,但过多也会导致切换开销。引用[2]提到不能无限开进程或线程,所以池的大小需要合理设置。 然后要总结对比表格,让用户更清晰。最后生成相关问题,比如如何选择线程池进程池,或者Python中GIL的影响,或者进程池的数据共享方式。确保问题覆盖用户可能进一步想知道的内容。 需要确保回答结构清晰,分点说明,引用正确的资料。比如引用[3]说明GIL的影响,引用[2]说明池的限制,引用[4]的代码示例说明API相似性。同时注意用户可能对性能差异和应用场景特别感兴趣,所以这部分要详细说明。</think>### 线程池进程池的对比分析 #### 1. **资源开销** - **线程池**:线程是轻量级的执行单元,共享同一进程的内存空间,创建和切换开销小[^3]。 - **进程池**:进程是独立的资源分配单元,创建和销毁需要更多系统资源,且内存空间相互隔离[^2]。 #### 2. **并发能力** - **线程池**:在Python中受全局解释器锁(GIL)限制,同一时间仅有一个线程执行字节码,多线程无法充分利用多核CPU。 - **进程池**:每个进程有独立的GIL,可并行利用多核CPU,适合CPU密集型任务。 #### 3. **适用场景** - **线程池**:适合IO密集型任务(如网络请求、文件读写)或与外部设备交互(如Selenium自动化测试)。 - **进程池**:适合CPU密集型任务(如数学计算、图像处理)[^2]。 #### 4. **数据通信** - **线程池**:线程共享内存,可直接读写全局变量,但需注意线程安全问题。 - **进程池**:进程间通信需通过IPC机制(如管道、队列),数据传递效率较低[^2]。 #### 5. **创建限制** - **线程池**:可创建较多线程(受内存限制),但线程数过多会导致上下文切换开销。 - **进程池**:进程数量通常受CPU核心数限制,过多进程会显著降低性能。 #### 6. **Python实现** - **API统一性**:Python中`concurrent.futures`模块提供统一的`ThreadPoolExecutor`(线程池)和`ProcessPoolExecutor`(进程池)接口[^1][^4]。 - **代码示例对比**: ```python # 线程池示例 from concurrent.futures import ThreadPoolExecutor with ThreadPoolExecutor(5) as executor: results = executor.map(task, args_list) # 进程池示例 from concurrent.futures import ProcessPoolExecutor with ProcessPoolExecutor(4) as executor: # 通常设置为CPU核心数 results = executor.map(task, args_list) ``` --- ### **对比总结表格** | 对比维度 | 线程池 | 进程池 | |----------------|---------------------------------|---------------------------------| | **资源开销** | 低(共享内存) | 高(独立内存) | | **并发能力** | 受GIL限制(伪并行) | 真并行(多核利用) | | **适用场景** | IO密集型任务 | CPU密集型任务 | | **数据通信** | 直接共享内存 | 需IPC机制(如队列) | | **创建数量** | 较多(受内存限制) | 较少(受CPU核心数限制) | | **编程复杂度** | 需处理线程安全 | 需处理进程间通信 | ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值