Python多线程实现 as_completed先返回的任务先处理在阿里云函数式计算优化的应用

最新推荐文章于 2022-12-01 14:51:26 发布

rgc_520_zyl

最新推荐文章于 2022-12-01 14:51:26 发布

阅读量7.8k

点赞数 2

分类专栏：高性能文章标签： python as_completed 多线程

本文链接：https://blog.csdn.net/rgc_520_zyl/article/details/104883963

版权

高性能专栏收录该内容

9 篇文章 0 订阅

订阅专栏

需求：在调用阿里云函数式计算时，由于其函数式计算系统在分配系统资源时，可能存在多个任务分配给同一个服务器（每个服务器2核3G内存），导致多个相同任务在多线程调用函数式计算时总有几个因为资源分配不均返回较慢（包括带宽问题）;并且在多线程调用函数式计算时，每个线程的函数相同，并且根据业务需求，只要把返回结果list 拼接一下并且满足指定长度即可；

解决方法：使用多线程的先返回的任务先处理的方法，比如多线程请求20个函数式计算任务,但是只需要先返回的10个任务即可，剩下的10个任务忽略；这样能保证最大程度最大概率的前10个任务返回总体时间很短，从而优化接口执行时间；

图示：

技术名: python+ThreadPoolExecutor+as_completed

主要技术点：as_completed

实例代码：

from concurrent.futures import ThreadPoolExecutor, as_completed
import time


def get_ali_fun(times):
    time.sleep(times)
    return times


executor = ThreadPoolExecutor()
urls = [3, 2, 4]
all_task = [executor.submit(get_ali_fun, url) for url in urls]

result_list = []
for future in as_completed(all_task):
    data = future.result()
    result_list.append(data)
    print("获取数据，耗时 {}s".format(data))
    if len(result_list) == 2:
        print("先返回的数据已经满足条件 则 剩下的1个线程结果 不再处理。。。")
        break

print("继续处理下面程序")

as_completed()方法是一个生成器，在没有任务完成的时候，会阻塞，在有某个任务完成的时候，会yield这个任务，就能执行for循环下面的语句，然后继续阻塞住，循环到所有的任务结束。从结果也可以看出，先完成的任务会先通知主线程。

关于阿里云函数式计算相关知识备注：

1.在调用其服务时，如果需要分析耗时，需要考虑服务内部函数执行时间和来回网络带宽时间；

2.截止2020.3.15 问的其技术人员其函数计算在不调用15分钟后释放资源（以后可能会缩短），如果对时间敏感，可以通过airflow等使用定时任务方式调用函数计算，不让其释放资源(冷启动至少10s耗费);不要使用阿里云内置的预留资源(太贵了。。。)

3.函数式计算系统在分配资源时是根据内存进行分配，每个服务器2核3G内存,如果函数分配内存1G，则有一定概率 3个函数都在一个服务器上，这样如果对于并发时间敏感的任务，则有一定的概率耗时增加；最极端优化方式：一个函数分配3G内存，则保证一个任务1个服务器；缺点是太费钱。。。

4.如果对时间敏感，需要考虑增加带宽(减少带宽导致时间过长的概率,然而时间操作仍有很大概率)，或者配置云服务器和函数式计算同一个VPC(让其在同一个内网中)

5.如果一个借口调用多个函数进行函数式计算，如果没有函数间的依赖，可以考虑进程+协程等让其同时运行从而节约时间

6.函数式计算的时间优化计算优化到尽头如果还是需要考虑资金问题，那仍有很大概率无法达到100% 预期时间；因为函数式计算系统的资源分配是随机的，可能相同函数的多个任务都在一个服务器上，这样就比在不同服务器上耗时增加；所以随缘吧。。。

as_completed参数过期时间设置，注意如果不添加过期时间，并且函数如果没有返回值，则此线程一直存在，可能造成内存逐渐增加的情况

# -*- coding: utf-8 -*-
"""
(C) Guangcai Ren <rgc@bvrft.com>
All rights reserved
create time '2020/3/30 18:59'

Module usage:

"""
from concurrent.futures._base import as_completed, TimeoutError
from concurrent.futures.thread import ThreadPoolExecutor


def sleep_fun(_time):
    """
    耗时操作
    :param _time:
    :return:
    """
    import time
    time.sleep(_time)
    return _time


pool = ThreadPoolExecutor()
pool_result = [pool.submit(sleep_fun, func_param) for func_param in [1, 1000]]

try:
    # as_completed添加超时时间，如果不添加，则此 线程池一直存在；
    for result in as_completed(pool_result, 2):
        print(result.result())
    print('do other thing!')
except TimeoutError as e:
    # 清除相关资源，参数 默认为True,需要 所有线程都返回数据才清空资源;参数为 False,则直接清空资源,继续执行后续程序
    pool.shutdown(False)
    print('shut down!')
print('do something!!!')