前记:“抨击线程的往往是系统程序员,他们考虑的使用场景对一般的应用程序员来说,也许一生都不会遇到……应用程序员遇到的使用场景, 99% 的情况下只需知道如何派生一堆独立的线程,然后用队列收集结果” ------Michele Simionato
哈哈,看到这句话感到很搞笑,这说的不就是目前的我吗,为了不继续被人这样嘲笑。。。,我决定新开个坑。
在python的并发操作中,由于GIL的存在,无法使用多cpu的计算能力,因此python的多线程只能对处理IO阻塞类的任务有效果(这是个python的常识性问题), 当然事实胜于雄辩, 这一节,我们先来看看三种示例(网络下载的三种风格----- 1.顺序下载, 线程池并发下载, 线程池并发下载异步获取结果)。从而来看一下python多线程对于IO类操作的助力
这里的例子均可以在 《流畅的python》一书中17章找到,我只是做了个读书笔记,本文示例适用于python3.x版本
1.顺序下载 各国国旗
# coding=UTF-8
import os
import time
import sys
import requests
"""
________________________________________________________________
Description:下载各国国旗-- 顺序下载
Author: xudong
Time: 2019-12-18
________________________________________________________________
"""
POP20_CC = ('CN IN US ID BR PK NG BD RU JP MX PH VN ET EG DE IR TR CD FR').split()
BASE_URL = "http://flupy.org/data/flags"
DEST_DIR = "E://flag_downloads"
def save_flag(img, filename):
path = os.path.join(DEST_DIR, filename)
with open(path, 'wb') as flag:
flag.write(img)
def get_flag(cc):
url = '{}/{cc}/{cc}.gif'.format(BASE_URL, cc=cc.lower())
resp = requests.get(url)
return resp.content
def show(text):
print(text + " ")
sys.stdout.flush()
def download_many(cc_list):
for cc in sorted(cc_list):
image = get_flag(cc)
show(cc)
save_flag(image, cc.lower() + '.jpg')
return len(cc_list)
def main(download_many):
t0 = time.time()
count = download_many(POP20_CC)
elapsed = time.time() - t0
msg = '\n {} flags downloaded in {:.2f}s'
print(msg.format(count, elapsed))
if __name__ == "__main__":
main(download_many)
获取到的结果如下所示:
有部分网络的原因,但是这个真的是太慢了。。。
2.多线程下载(线程池) 各国国旗(这里开了20个)
# coding=UTF-8
from concurrent import futures
from asyncio.future.flags import save_flag, get_flag, show, main
"""
________________________________________________________________
Description: 使用future.ThreadPoolExecutor 类 顺序下载 适用于 python3
Author: xudong
Time: 2019-12-18
________________________________________________________________
"""
MAX_WORKERS = 20
def download_one(cc):
image = get_flag(cc)
show(cc)
save_flag(image, cc.lower() + '.gif')
return cc
def download_many(cc_list):
workers = min(MAX_WORKERS, len(cc_list))
with futures.ThreadPoolExecutor(workers) as executor:
res = executor.map(download_one, sorted(cc_list))
return len(list(res))
if __name__ == "__main__":
main(download_many)
结果如下, 快了很多,可见多线程对于IO类操作是有效果的(部分时间受网络影响)
3. 多线程下载(线程池异步) 各国国旗
这里展示了多线程异步的操作,事实上工作中会用到异步的地方很多,适当使用能很大程度上提高程序性能,这里简单的列一个程序进行介绍:只下载人口最多的五个国家的国旗。
# coding=UTF-8
from concurrent import futures
from asyncio.future.flags import save_flag, get_flag, show, main
"""
________________________________________________________________
Description: 使用 future 将executor.map 方法替换为executor.submit方法 适用于 python3
Author: xudong
Time: 2019-12-18
________________________________________________________________
"""
MAX_WORKERS = 20
def download_one(cc):
image = get_flag(cc)
show(cc)
save_flag(image, cc.lower() + '.gif')
return cc
def download_many(cc_list):
cc_list = cc_list[:5]
with futures.ThreadPoolExecutor(max_workers=3) as executor:
to_do = []
for cc in sorted(cc_list):
future = executor.submit(download_one, cc)
to_do.append(future)
msg = 'Scheduled for {}: {}'
print(msg.format(cc, future))
result = []
for future in futures.as_completed(to_do): # as_completed 函数在future运行结束后产出结果future
res = future.result() # 获取结果(该方法阻塞)
msg = '{} result: {!r}'
print(msg.format(future, res))
result.append(res)
return len(result)
if __name__ == "__main__":
main(download_many)
异步获取结果如下,所示
前面说了python多线程只适合IO类任务,对于cpu占用类任务,多线程并不能提供多少支持,这时候就需要使用到Python的多进程了,这个之后再说,现在先在这里挖个坑