multiprocessing和concurrent.futures

最新推荐文章于 2024-09-05 15:45:18 发布

莺声门径

最新推荐文章于 2024-09-05 15:45:18 发布

阅读量3.7k

点赞数 7

分类专栏： Python编程

本文链接：https://blog.csdn.net/qq_33385691/article/details/81082447

版权

Python编程专栏收录该内容

47 篇文章 1 订阅

订阅专栏

关于concurrent.futures模块

Python标准库为我们提供了threading和multiprocessing模块编写相应的多线程/多进程代码，但是当项目达到一定的规模，频繁创建/销毁进程或者线程是非常消耗资源的，这个时候我们就要编写自己的线程池/进程池，以空间换时间。但从Python3.2开始，标准库为我们提供了concurrent.futures模块，它提供了ThreadPoolExecutor和ProcessPoolExecutor两个类，实现了对threading和multiprocessing的进一步抽象，对编写线程池/进程池提供了直接的支持。

1.Executor和Future：

　　concurrent.futures模块的基础是Exectuor，Executor是一个抽象类，它不能被直接使用。但是它提供的两个子类ThreadPoolExecutor和ProcessPoolExecutor却是非常有用，顾名思义两者分别被用来创建线程池和进程池的代码。我们可以将相应的tasks直接放入线程池/进程池，不需要维护Queue来操心死锁的问题，线程池/进程池会自动帮我们调度。

　　Future这个概念相信有java和nodejs下编程经验的朋友肯定不陌生了，你可以把它理解为一个在未来完成的操作，这是异步编程的基础，传统编程模式下比如我们操作queue.get的时候，在等待返回结果之前会产生阻塞，cpu不能让出来做其他事情，而Future的引入帮助我们在等待的这段时间可以完成其他的操作。

　　p.s: 如果你依然在坚守Python2.x，请先安装futures模块。

1 用concurrent.futures

线程池

from concurrent.futures import ThreadPoolExecutor
from urllib2 import urlopen
import time
URLS = ['http://www.163.com', 'https://www.baidu.com/', 'http://qq.com/']

def load_url(url):
    res = urlopen(url, timeout=60)
    print('%r page is %d bytes' % (url, len(res.read())))

if __name__ == '__main__':
    start = time.time()
    executor = ThreadPoolExecutor(max_workers=3)
    #使用submit方式
    for url in URLS:
        future = executor.submit(load_url,url)
        #print(future.done())
        print (future.result()) #加了.result()会阻塞主线程
    #使用map方式
    #executor.map(load_url, URLS)
    end = time.time()
    #print('主线程')
    print (end-start)
    ####

进程池

from concurrent.futures import ProcessPoolExecutor
from urllib2 import urlopen
import time
URLS = ['http://www.163.com', 'https://www.baidu.com/', 'http://qq.com/']

def load_url(url):
    res = urlopen(url, timeout=60)
    print('%r page is %d bytes' % (url, len(res.read())))

if __name__ == '__main__':
    start = time.time()
    executor = ProcessPoolExecutor(max_workers=3)
    #使用submit方式
    for url in URLS:
        future = executor.submit(load_url,url)
        #print(future.done())
        print (future.result()) #加了.result()会阻塞主线程
    #使用map方式
    #executor.map(load_url, URLS)
    end = time.time()
    #print('主线程')
    print (end-start)

2用multiprocessing实现进程池

from multiprocessing import Pool
from urllib2 import urlopen
import time
URLS = ['http://www.163.com', 'https://www.baidu.com/', 'http://qq.com/']

def load_url(url):
    res = urlopen(url, timeout=60)
    print('%r page is %d bytes' % (url, len(res.read())))

if __name__ == '__main__':
    start = time.time()
    pools = Pool(processes=3)
    for i in URLS:
        pools.apply(load_url, args=(i,))#阻塞式
    # end = time.time()
    # print (end - start)
    pools.close()
    pools.join()
    end = time.time()
    print (end - start)

执行后时间相差不大

用futures的写法上更简洁一些,concurrent.futures的性能并没有更好,只是让编码变得更简单。考虑并发编程的时候,任何简化都是好事。从长远来看,concurrent.futures编写的代码更容易维护。
使用map时,future是逐个迭代提交,multiprocessing.Pool是批量提交jobs,因此对于大批量jobs的处理,multiprocessing.Pool效率会更高一些。对于需要长时间运行的作业,用future更佳,future提供了更多的功能(callback, check status, cancel)。
concurrent.futures.ProcessPoolExecutor是对multiprocessing的封装,在运行时需导入main,不能直接在交互窗口工作。
由于GIL限制,建议:IO密集的任务,用ThreadPoolExecutor;CPU密集任务,用ProcessPoolExcutor。