使用concurrent.futures模块中的线程池与进程池

最新推荐文章于 2024-09-05 15:45:18 发布

is_sfencs

最新推荐文章于 2024-09-05 15:45:18 发布

阅读量726

点赞数

分类专栏： python 文章标签：线程池进程池

本文链接：https://blog.csdn.net/qq_36813467/article/details/88807551

版权

python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章目录

使用concurrent.futures模块中的线程池与进程池

使用concurrent.futures模块中的线程池与进程池

线程池与进程池

以线程池举例，系统使用多线程方式运行时，会产生大量的线程创建与销毁，创建与销毁必定会带来一定的消耗，甚至导致系统资源的崩溃，这时使用线程池就是一个很好的解决方式。

“池”就说明了这里边维护了不止一个线程，线程池会提前创建好规定数量的线程，把需要使用多线程的任务提交给线程池，线程池会自己选择空闲的线程来执行提交的任务，任务完成后，线程并不会在池子中销毁，而是继续存在并等待完成下一个分配的任务。当线程池以满的时候，提交的线程会等待，也就是说线程池会有一个最大数量的运行线程限制。

进程池同样也是这个道理。

concurrent.futures模块为我们提供了ThreadPoolExecutor与ProcessPoolExecutor来使用线程进程池

ThreadPoolExecutor

下面是一个简单的例子

from concurrent.futures import ThreadPoolExecutor
import requests,time
url_list = ['https://www.cnblogs.com/', 'https://www.csdn.net/', 'https://github.com/']
def get_url(url):
    content = requests.get(url).content.decode()
    print(url+'已获取')

pool = ThreadPoolExecutor(max_workers=3)

start = time.time()
for url in url_list:
    future = pool.submit(get_url,url)
    ＃　print(future)
end = time.time()
print(end-start)

输出的结果为：

0.0016434192657470703

https://www.cnblogs.com/已获取

https://www.csdn.net/已获取

https://github.com/已获取

例子中max_workers为指定线程个数，pool.submit为提交任务到线程执行，get_url为方法，url为参数

并且通过输出顺序可以看到线程池的执行并不会阻塞主线程的运行

print(future)被打了注释，现在我们取消注释运行一下：

<Future at 0x7ff6cfaa8860 state=running>

<Future at 0x7ff6ce965860 state=running>

<Future at 0x7ff6ce96e278 state=running>

0.006175518035888672

https://www.cnblogs.com/已获取

https://www.csdn.net/已获取

https://github.com/已获取

每提交一个任务后都会返回一个future对象，通过它可以查看任务运行的状态，state=running表示正在运行

future对象还有许多方法：

future.done()

from concurrent.futures import ThreadPoolExecutor
import requests,time
url_list = ['https://www.cnblogs.com/', 'https://www.csdn.net/', 'https://github.com/']
def get_url(url):
    content = requests.get(url).content.decode()
    print(url+'已获取')

pool = ThreadPoolExecutor(max_workers=3)
future_list = []
start = time.time()
for url in url_list:
    future = pool.submit(get_url,url)
    print(future.done())
    future_list.append(future)
end = time.time()

print(end-start)
time.sleep(5)
for future in future_list:
    print(future.done())

这里添加了future_list,为了显示效果中间添加sleep,最后结果为：

False

False

False

0.001546621322631836

https://www.cnblogs.com/已获取

https://www.csdn.net/已获取

https://github.com/已获取

True

True

True

future.done()可以显示当前允许状态

future.result()

from concurrent.futures import ThreadPoolExecutor
import requests,time
url_list = ['https://www.cnblogs.com/', 'https://www.csdn.net/', 'https://github.com/']
def get_url(url):
    content = requests.get(url).content.decode()
    print(url+'已获取')
    return url

pool = ThreadPoolExecutor(max_workers=3)
future_list = []
start = time.time()
for url in url_list:
    future = pool.submit(get_url,url)
    print(future.result())
    future_list.append(future)
end = time.time()

print(end-start)
for future in future_list:
    print(future.result())

结果为：

https://www.cnblogs.com/已获取

https://www.cnblogs.com/

https://www.csdn.net/已获取

https://www.csdn.net/

https://github.com/已获取

https://github.com/

2.0975613594055176

https://www.cnblogs.com/

https://www.csdn.net/

https://github.com/

可见result()方法可以得到任务的返回值，但会阻塞，因为不运行完怎么会得到返回值呢？

除此之外还有很多方法：

在这里插入图片描述

使用map方法

from concurrent.futures import ThreadPoolExecutor
import requests,time
url_list = ['https://www.cnblogs.com/', 'https://www.csdn.net/', 'https://github.com/']
def get_url(url):
    content = requests.get(url).content.decode()
    print(url+'已获取')
    return url

pool = ThreadPoolExecutor(max_workers=3)

pool.map(get_url,url_list)

与内建函数用法类似

使用wait方法

from concurrent.futures import ThreadPoolExecutor,wait
import requests,time
url_list = ['https://www.cnblogs.com/', 'https://www.csdn.net/', 'https://github.com/']
def get_url(url):
    content = requests.get(url).content.decode()
    print(url+'已获取')
    return url

pool = ThreadPoolExecutor(max_workers=3)
future_list = []
start = time.time()
for url in url_list:
    future = pool.submit(get_url,url)
    future_list.append(future)

print(wait(future_list))
end = time.time()
print(end-start)

https://www.cnblogs.com/已获取

https://www.csdn.net/已获取

https://github.com/已获取

DoneAndNotDoneFutures(done={<Future at 0x7f7506447da0 state=finished returned str>, <Future at 0x7f75074c9828 state=finished returned str>, <Future at 0x7f75064477f0 state=finished returned str>}, not_done=set())

6.678021430969238

wait返回值是一个元组，元组里是已完成和未完成的两个集合，它的return_when参数接受３个选项FIRST_COMPLETED, FIRST_EXCEPTION 和ALL_COMPLETE，默认是ALL_COMPLETE，意味着所有都完成，FIRST_COMPLETED意味着有一个完成了就可以了， FIRST_EXCEPTION是第一个出现异常就会停止wait

例如：

from concurrent.futures import ThreadPoolExecutor,wait
import requests,time
url_list = ['https://www.cnblogs.com/', 'https://www.csdn.net/', 'https://github.com/']
def get_url(url):
    content = requests.get(url).content.decode()
    print(url+'已获取')
    return url

def error(url):
    gg
    
pool = ThreadPoolExecutor(max_workers=4)
future_list = []
start = time.time()
future_list.append(pool.submit(error,'https://www.cnblogs.com/'))
for url in url_list:
    future = pool.submit(get_url,url)
    future_list.append(future)

print(wait(future_list,return_when='FIRST_EXCEPTION'))
end = time.time()
print(end-start)

DoneAndNotDoneFutures(done={<Future at 0x7fd1a5b95320 state=finished raised NameError>}, not_done={<Future at 0x7fd1a4b11a90 state=running>, <Future at 0x7fd1a4b11a20 state=running>, <Future at 0x7fd1a4c897f0 state=running>})

0.001996755599975586

https://www.cnblogs.com/已获取

https://www.csdn.net/已获取

https://github.com/已获取