证券行业容器云平台建设之GPU池化建议

随着分布式微服务化技术的广泛使用,用户对于容器系统的需求急剧增加。证券行业在近几年开始着手引入企业级容器云平台。在AIGC的大环境下,证券行业正以数据中台、智能中台为核心,在营销、投顾、投研、风控等多个领域进行智能化升级,深化 AI+ 场景的融合,稳步推进各项业务转型发展。

01 证券行业的GPU使用现状

AI应用场景的背后离不开算法、算力、数据这三要素。

目前证券行业的AI应用主要采用第三方算法提供商的算法模型,小部分为自研的算法模型。由于各家算法厂商对环境部署要求不同,且各个AI应用系统在不同时期分别部署上线,往往平台和系统没有被统一规划,大多是烟囱式的竖井结构——一个AI应用场景一套硬件资源,每块GPU卡上往往只运行一个AI应用进程,每块GPU的卡算力和显存都没有得到有效和充分的利用。在小规模AI应用上线时,这种烟囱式架构带来的弊端还不是很明显,但随着AI应用的大规模上线, 算力资源使用和管理上的问题就会一一暴露出来。

另外,由于金融行业的业务周期性特性,AI应用的调用有明显的高峰和低谷期,在业务低谷期,大量算力资源被闲置浪费。

在当前AI业务持续增长的趋势下,如不改变现有GPU调度和使用方式,各大券商只能通过不断增加GPU硬件资源的投入,解决业务用卡的需求。然而,如果不解决利用率低等问题,投入的GPU硬件资源越多,闲置浪费也就更为严重。

02 AI应用场景中GPU在使用中的问题

a. AI开发测试:

大多数的AI开发涉及到从数据准备,预处理,模型训练,调参,部署模型,线上推理,持续监控,数据收集,迭代优化的过程。在整个业务流程中,有些工作是需要大量CPU,不需要GPU资源的,在CPU运算的时候,其实GPU是闲置的。

在日常开发测试中,目前采取的是为一个开发者分配一块或几块GPU卡的方式来满足开发调试的需求。这种情况下存在什么问题?卡和人绑定,卡分配之后,存在着较大的闲置——开发人员70%以上的时间都在读论文、写代码,只有不到30%的时间在利用GPU资源进行运算调试。当GPU分配后,此GPU无法被其他用户使用,GPU大部分时间为空载状态。

“人”与“卡”绑定、固定配比的关系,GPU资源无法被有效复用,GPU利用率极低。面对新增的算力使用需求的用户,无法快速调配GPU资源,用户只能通过排队的方式,等待其他用户使用完毕后手动释放GPU,才可获得算力资源,这样极大损耗工程师的工作人效。

b. AI模型训练:

日常模型训练多以单机单卡或者单机多卡为主,周期长,导致占用GPU的时间也长,会严重影响工程师的效率;如果改用分布式方式训练,则需要算法工程师花费较多精力去调试维护底层软、硬件环境。

c. 生产环境AI在线推理:

大部分AI服务只需少量的GPU资源,然而当前机制情况下,以整卡GPU资源分配给AI服务,GPU资源平均利用率较低。并且GPU利用率极低的AI应用长期占用整张GPU资源,且剩余GPU资源无法给其他服务使用,造成了GPU资源极大浪费。

另有部分AI服务为“长尾业务”,这类应用在一定周期,如每个月的某几天会有较高的调用,其他时间为空载状态,GPU利用率长期为0。这类应用有其运行的必要性,但长期独占整张算力卡的方式也造成了浪费。简单的GPU虚拟共享技术也无法从根本解决这类“长尾业务”GPU资源使用难题。

03 容器云平台对GPU的管理能力需提升

在IT基础设施普遍云化的今天,我们发现用户现有部署架构中存在GPU资源利用率低、算力资源无法被灵活分配、缺乏统一监管等问题。在容器云平台设计与建设时,算力资源如何被合理、高效地规划、利用、管控成为用户需要重点解决的新课题。

现有容器云对GPU的管理能力较为薄弱:不支持GPU的资源隔离、资源超分、远程调用、资源聚合、任意切分。而这些GPU管理能力都是容器云平台所必须的能力。

GPU资源池化技术可以很好地弥补传统容器云平台对GPU资源管理能力的缺失,可以更好地支撑上层业务系统对算力资源的多样化需求,提高容器云平台的资源管控效率与能力,所以在云平台融合GPU池化管理能力符合各大证券的容器云平台的建设方向。

04 容器云平台应具备的GPU池化能力

容器云平台在建设时应考虑到GPU资源池的池化能力、池化调度能力、池化运维管理能力、池化高可用性能力。

容器云平台对GPU资源的池化能

□ 从算力和显存2个维度实现“按需切分”

√ 适用于推理场景;

√ 可对推理业务精准提供所需资源,保证单GPU卡上合理部署多个推理业务,提高单卡并发处理能力,提升GPU利用率。

□ 实现“远程调用”

√ 适用于推理场景、开发测试场景、训练场景;

√ 可有效避免常见的“GPU碎片化问题”,即因某个节点的CPU、内存首先成为瓶颈从而有剩余GPU无法使用。GPU资源池化支持远程使用GPU,从而这部分剩余GPU可以提供给数据中心其他业务使用,有效缓解GPU与CPU固定配比带来的弊端,解决CPU/GPU资源不匹配的问题。

□ 实现多机多卡“资源聚合”

√ 适用于开发测试场景、训练场景、量化策略回测、量化策略迭代;

√ 可以将多台服务器的GPU资源聚合后提供给单一容器使用。底层软硬件环境无需额外调试,就可轻松获得所需的算力资源,实现跨机多卡聚合训练,轻松调度全局资源,训练时长有效缩短。

□ 实现“算力隔离”,故障隔离

√ 适用于所有场景;

√ 可提供严格的“算力隔离”,资源隔离,故障隔离。同一个GPU上运行的多个AI任务相互间不存在干扰,一个任务的故障不会影响到其他AI任务,确保每个AI应用有稳定的性能表现。

□ 实现“算力控制”

√ 适用于所有场景;

√ 可提供精准的“算力控制”,从算力和显存两个维度分别对GPU实现切分,每一块vGPU的显存和算力都能被独立设置和限制,算力切分的最小颗粒度为原物理GPU算力的1%;显存切分的最小颗粒度为1MB。每个AI任务都能按需获得所需算力资源,并有持续稳定的性能表现。

□ 实现“资源超分”

√ 适用于推理场景、开发测试场景;

√ 可针对证券行业典型的周期性业务运行特点,单卡多业务叠加,提高GPU资源利用率;也可有效解决“长尾应用”GPU资源长期闲置的问题,实现多个“长尾应用”同卡叠加部署,有效提升GPU利用率。

□ 实现资源的动态申请与释放

√ 适用于所有场景;

√ AI应用可以根据负载需求调用任意大小的GPU,甚至可以聚合多个物理节点的GPU;在容器创建之后,仍然可以调整虚拟GPU的数量和大小;在AI应用停止的时候,立刻释放GPU资源回到整个GPU资源池,以便于资源高效流转,充分利用。

容器云平台对GPU资源的池化调度能力

□ 实现灵活的、精准的资源调度,可按节点调度、按GPU型号调度

√ 适用于所有场景;

√ 优化了容器云平台GPU资源的灵活调度;

√ 提供差别化,精准化,灵活化的资源调度能力,可满足容器云平台各类AI任务差异化的运行要求。

□ 实现“异构算力”全局调度与池化管理

√ 适用于所有场景;

√ 提供多种算力资源同一资源池全局调度与池化管理的能力,满足金融机构今后发展与转型的需求。

容器云平台对GPU资源的池化运维能力

□ 提供AI 算力热迁移能力

√ 适用于推理场景;

√ 当监控到物理卡故障时,可不中断推理应用,将业务在线热迁移至健康的算力卡上,有效提升保障推理业务的可靠性;

√ 当物理卡多个负载出现激增,可动态迁移该任务至其他算力卡上,实现业务负载均衡;

√ 需要硬件维护、软件升级、节点下线时,可将推理业务在线迁移至其他服务器上,为此类操作赢得运维窗口期;
√ 在保障业务可用性的情况下,实现对AI算力资源的动态管理和优化。

□ 提供资源分配限制

√ 适用于所有场景;

√ 容器平台可限制和控制能力,防止生产环境中客户对资源随意篡改。

□ 实现虚拟GPU的资源配额管理

√ 适用于所有场景;

√ 可以为不同用户,或不同组用户设定资源使用量限制。

□ 提供任务运行状态监控

√ 适用于所有场景;

√ 可监控每个任务的虚拟GPU资源使用情况,对资源使用趋势有直观的展示,方便运维了解和掌握每个任务运行情况。

 提供监控告警、日志收集、故障发现与恢复

√ 适用于所有场景;

√ 方便容器云平台对资源池的监控与运维。

容器云平台对GPU资源的高可用能力

□ 实现GPU资源池化平台的高可用性,满足金融行业客户AI业务生产的部署要求

√ 适用于所有场景;

√ 可为容器云平台在生产环境中使用虚拟GPU资源提供稳定性和高可用性保障。

05 成功案例

随着大数据和人工智能技术的发展,人工智能相关技术已在某证券内部多个业务场景里取得创新应用,包括精准营销、量化交易、智能投顾、智能诊股、营销反欺诈、相似 K 线等场景;类似应用案例都需要依托于海量金融、产业、行业相关数据,并通过数据挖掘、机器学习、深度学习等相关技术来实现。该证券关于“AI+HI”(人工智能+人类智慧)的智能投研平台建设正在逐步进行中。

客户痛点:

□ 在传统架构下建设AI推理服务集群,GPU综合利用率低,资源浪费严重;

□ 在线推理服务的业务并发量受限于集群内物理GPU的数量,不具备业务伸缩能力;

□ 难以对GPU算力资源进行全局管理,缺乏监控调度手段;

建设思路

趋动科技OrionXAI算力资源池化解决方案中所有OrionX组件可无缝加载到该证券当前已有GPU集群,实现GPU资源池化,在资源池里面实现任意OrionX vGPU的切分。同时,支持北向业务管理平台所需的开放API接口,予以集成。

解决方案拓扑图

客户收益:

□ 业务并发量规模化提升:采用GPU资源池方式调度资源,以“化整为零”的方式,支撑AI业务调度所需的虚拟GPU,定义算力+显存的双维度,极近贴合业务需要;

□ 算力适配:支持不同代的算力卡混合池化;

□ 容器编排:与K8S完美集成,单一用户界面即可调度CPU和GPU资源。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值