Python 线程池/进程池 内存管理

concurrent.futures 线程池/进程池内存管理

起因

之前进行爬虫任务的时候遇到了这么一个需求,1G 内存的机器跑爬虫,爬取一个网站的数据,之前使用的是这样一种方式:

 futures = list()
 with ThreadPool(max_workers=20) as exc:
      for tr in table.select("tr"):

          # 取线程执行结果
          future = exc.submit(self.get_asn, tr.strings)
          futures.append(future)

# 使用 as_completed 异步方式处理完成任务的线程
for future in as_completed(futures):
    result = future.result()
    # 拼接 asn.json 的 path
    file_path = result["asn"] + ".json"
    asn_file = os.path.join(self.base_data_path, file_path)

    with open(asn_file, "w", encoding="utf8") as f:
        f.write(json.dumps(result))

使用了 concurrent.futures 的 ThreadPoolExecutor submit 方法,因为开启了20个线程同时爬取,连接网站的速度还很快,任务很快就被处理完成了,可以看到我时完成一个任务的时候就进行写文件了操作,但是2分钟后很快程序就终止了,监控程序发现时由于程序内存占用达到 80% 被系统 Kill 掉了。

  • 为什么内存会爆呢?监控内存显示,程序处理完任务之后,内存并没有被立刻释放,而是有很长时间延迟之后才被释放( 在此吐槽 python GC)

改进方法:

参考 https://stackoverflow.com/questions/34770169/using-concurrent-futures-without-running-out-of-ram

# 允许同时进行的工作数
MAX_JOBS_IN_QUEUE = 1000


tr_list = table.select("tr")
tr_left = len(tr_list) - 1  # <----
tr_iter = iter(tr_list)  # <------
jobs = dict()

  with ThreadPool(max_workers=20) as exc:
      while tr_left:
          print("#" * 100, "TASK: {} <===>  JOB: {}".format(tr_left, len(jobs)))
          for tr in tr_iter:
              # 取线程执行结果
              job = exc.submit(self.get_asn, tr.strings)
              jobs[job] = tr
              if len(jobs) > MAX_JOBS_IN_QUEUE:
                  break  # limit the job submission for now job

          # 使用 as_completed 异步方式处理任务线程
          for job in as_completed(jobs):
              tr_left -= 1  # one down - many to go...   <---
              result = job.result()
              # 从字典中删除结果,因为我们不需要存储它
              del jobs[job]

              # 拼接 asn.json 的 path
              file_path = result["asn"] + ".json"
              asn_file = os.path.join(self.base_data_path, file_path)

              with open(asn_file, "w", encoding="utf8") as f:
                  f.write(json.dumps(result))
              break

改进后内存在切换 html 爬取的时候,会偶尔会升高一下,最高 65%,平均在 35% 左右。

  • ProcessPoolExecutor 进程同理
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python 提供了 multiprocessing 和 threading 模块,分别支持进程线程池的实现。 进程(multiprocessing.Pool)是一个由多个进程组成的可重用的进程,可以通过 apply、map 等方法很方便地实现并行化计算和任务分配。进程的优点是可以有效地利用多核 CPU 的性能,缺点是由于进程间的切换和通信开销较大,所以适用于计算密集型任务,不适合 IO 密集型任务。 以下是一个简单的进程示例: ```python from multiprocessing import Pool def worker(num): print("Worker %d start" % num) return num * 2 if __name__ == '__main__': pool = Pool(processes=4) result = pool.map(worker, range(10)) print(result) ``` 线程池(concurrent.futures.ThreadPoolExecutor)是一个由多个线程组成的可重用的线程池,可以通过 submit、map 等方法很方便地实现并行化计算和任务分配。线程池的优点是创建和销毁线程的开销比较小,适用于 IO 密集型任务,缺点是 Python 的全局解释锁(GIL)的存在,所以无法利用多核 CPU 的性能。 以下是一个简单的线程池示例: ```python from concurrent.futures import ThreadPoolExecutor def worker(num): print("Worker %d start" % num) return num * 2 if __name__ == '__main__': with ThreadPoolExecutor(max_workers=4) as executor: result = executor.map(worker, range(10)) print(list(result)) ``` 以上示例仅供参考,具体实现还需要根据任务的特点和需求进行调整和优化。 ### 回答2: Python中的进程线程池是用于并行处理任务的工具,可以提高程序的执行效率。它们都是用来管理和调度多个子任务的工作流程。 进程线程池的最大区别在于它们使用的底层执行单元不同。进程使用进程作为执行单元,而线程池使用线程作为执行单元。 进程Python中通过`multiprocessing.Pool`类进行实现,它可以创建多个子进程,并将任务分配给这些子进程进行并行处理。在创建进程,可以指定最大进程数,以控制并行处理的程度。进程提供了简单易用的接口,如`apply`、`apply_async`等方法,用于提交任务并获取任务的结果。 线程池则是通过`concurrent.futures.ThreadPoolExecutor`类实现的。线程池使用线程作为执行单元,可以同执行多个任务,并且提供了相似的接口方法用于任务的提交和结果的获取。线程池中的线程可以复用,减少线程创建和销毁的开销。 进程线程池在使用上有一些注意事项。首先,由于Python的全局解释锁(GIL)的存在,多线程在CPU密集型任务中并不能发挥真正的并行性能。但是对于IO密集型任务,使用线程池可以提高程序的执行效率。而进程则在CPU密集型任务中能够实现真正的并行处理。 其次,由于进程间通信的开销较大,进程内存使用方面可能会比线程池更高。因此,在使用进程需要注意控制进程的数量,以避免过多的内存消耗。 总结来说,进程适合CPU密集型任务,而线程池适合IO密集型任务。对于需要并行处理的任务,可以根据具体情况选择合适的并发处理方式来提高程序的执行效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值