证券行业容器云平台建设之GPU池化建议

virtaitech

于 2024-08-06 14:15:53 发布

阅读量920

点赞数 20

分类专栏： OrionX 文章标签：人工智能 GPU热迁移 gpu算力 ai 科技

本文链接：https://blog.csdn.net/m0_49711991/article/details/140954703

版权

OrionX 专栏收录该内容

74 篇文章 1 订阅

订阅专栏

随着分布式微服务化技术的广泛使用，用户对于容器系统的需求急剧增加。证券行业在近几年开始着手引入企业级容器云平台。在AIGC的大环境下，证券行业正以数据中台、智能中台为核心，在营销、投顾、投研、风控等多个领域进行智能化升级，深化 AI+ 场景的融合，稳步推进各项业务转型发展。

01 证券行业的GPU使用现状

AI应用场景的背后离不开算法、算力、数据这三要素。

目前证券行业的AI应用主要采用第三方算法提供商的算法模型，小部分为自研的算法模型。由于各家算法厂商对环境部署要求不同，且各个AI应用系统在不同时期分别部署上线，往往平台和系统没有被统一规划，大多是烟囱式的竖井结构——一个AI应用场景一套硬件资源，每块GPU卡上往往只运行一个AI应用进程，每块GPU的卡算力和显存都没有得到有效和充分的利用。在小规模AI应用上线时，这种烟囱式架构带来的弊端还不是很明显，但随着AI应用的大规模上线, 算力资源使用和管理上的问题就会一一暴露出来。

另外，由于金融行业的业务周期性特性，AI应用的调用有明显的高峰和低谷期，在业务低谷期，大量算力资源被闲置浪费。

在当前AI业务持续增长的趋势下，如不改变现有GPU调度和使用方式，各大券商只能通过不断增加GPU硬件资源的投入，解决业务用卡的需求。然而，如果不解决利用率低等问题，投入的GPU硬件资源越多，闲置浪费也就更为严重。

02 AI应用场景中GPU在使用中的问题

a. AI开发测试：

大多数的AI开发涉及到从数据准备，预处理，模型训练，调参，部署模型，线上推理，持续监控，数据收集，迭代优化的过程。在整个业务流程中，有些工作是需要大量CPU，不需要GPU资源的，在CPU运算的时候，其实GPU是闲置的。

在日常开发测试中，目前采取的是为一个开发者分配一块或几块GPU卡的方式来满足开发调试的需求。这种情况下存在什么问题？卡和人绑定，卡分配之后，存在着较大的闲置——开发人员70%以上的时间都在读论文、写代码，只有不到30%的时间在利用GPU资源进行运算调试。当GPU分配后，此GPU无法被其他用户使用，GPU大部分时间为空载状态。

“人”与“卡”绑定、固定配比的关系，GPU资源无法被有效复用，GPU利用率极低。面对新增的算力使用需求的用户，无法快速调配GPU资源，用户只能通过排队的方式，等待其他用户使用完毕后手动释放GPU，才可获得算力资源，这样极大损耗工程师的工作人效。

b. AI模型训练：

日常模型训练多以单机单卡或者单机多卡为主，周期长，导致占用GPU的时间也长，会严重影响工程师的效率；如果改用分布式方式训练，则需要算法工程师花费较多精力去调试维护底层软、硬件环境。

c. 生产环境AI在线推理：

大部分AI服务只需少量的GPU资源，然而当前机制情况下，以整卡GPU资源分配给AI服务，GPU资源平均利用率较低。并且GPU利用率极低的AI应用长期占用整张GPU资源，且剩余GPU资源无法给其他服务使用，造成了GPU资源极大浪费。

另有部分AI服务为“长尾业务”，这类应用在一定周期，如每个月的某几天会有较高的调用，其他时间为空载状态，GPU利用率长期为0。这类应用有其运行的必要性，但长期独占整张算力卡的方式也造成了浪费。简单的GPU虚拟共享技术也无法从根本解决这类“长尾业务”GPU资源使用难题。

03 容器云平台对GPU的管理能力需提升

在IT基础设施普遍云化的今天，我们发现用户现有部署架构中存在GPU资源利用率低、算力资源无法被灵活分配、缺乏统一监管等问题。在容器云平台设计与建设时，算力资源如何被合理、高效地规划、利用、管控成为用户需要重点解决的新课题。

现有容器云对GPU的管理能力较为薄弱：不支持GPU的资源隔离、资源超分、远程调用、资源聚合、任意切分。而这些GPU管理能力都是容器云平台所必须的能力。

GPU资源池化技术可以很好地弥补传统容器云平台对GPU资源管理能力的缺失，可以更好地支撑上层业务系统对算力资源的多样化需求，提高容器云平台的资源管控效率与能力，所以在云平台融合GPU池化管理能力符合各大证券的容器云平台的建设方向。

04 容器云平台应具备的GPU池化能力

容器云平台在建设时应考虑到GPU资源池的池化能力、池化调度能力、池化运维管理能力、池化高可用性能力。

容器云平台对GPU资源的池化能

□ 从算力和显存2个维度实现“按需切分”

√ 适用于推理场景；

√ 可对推理业务精准提供所需资源，保证单GPU卡上合理部署多个推理业务，提高单卡并发处理能力，提升GPU利用率。

□ 实现“远程调用”

√ 适用于推理场景、开发测试场景、训练场景；

√ 可有效避免常见的“GPU碎片化问题”，即因某个节点的CPU、内存首先成为瓶颈从而有剩余GPU无法使用。GPU资源池化支持远程使用GPU，从而这部分剩余GPU可以提供给数据中心其他业务使用，有效缓解GPU与CPU固定配比带来的弊端，解决CPU/GPU资源不匹配的问题。

□ 实现多机多卡“资源聚合”

√ 适用于开发测试场景、训练场景、量化策略回测、量化策略迭代；

√ 可以将多台服务器的GPU资源聚合后提供给单一容器使用。底层软硬件环境无需额外调试，就可轻松获得所需的算力资源，实现跨机多卡聚合训练，轻松调度全局资源，训练时长有效缩短。

□ 实现“算力隔离”，故障隔离

√ 适用于所有场景；

√ 可提供严格的“算力隔离”，资源隔离，故障隔离。同一个GPU上运行的多个AI任务相互间不存在干扰，一个任务的故障不会影响到其他AI任务，确保每个AI应用有稳定的性能表现。

□ 实现“算力控制”

√ 适用于所有场景；

√ 可提供精准的“算力控制”，从算力和显存两个维度分别对GPU实现切分，每一块vGPU的显存和算力都能被独立设置和限制，算力切分的最小颗粒度为原物理GPU算力的1%；显存切分的最小颗粒度为1MB。每个AI任务都能按需获得所需算力资源，并有持续稳定的性能表现。

□ 实现“资源超分”

√ 适用于推理场景、开发测试场景；

√ 可针对证券行业典型的周期性业务运行特点，单卡多业务叠加，提高GPU资源利用率；也可有效解决“长尾应用”GPU资源长期闲置的问题，实现多个“长尾应用”同卡叠加部署，有效提升GPU利用率。

□ 实现资源的动态申请与释放

√ 适用于所有场景；

√ AI应用可以根据负载需求调用任意大小的GPU，甚至可以聚合多个物理节点的GPU；在容器创建之后，仍然可以调整虚拟GPU的数量和大小；在AI应用停止的时候，立刻释放GPU资源回到整个GPU资源池，以便于资源高效流转，充分利用。

容器云平台对GPU资源的池化调度能力

□ 实现灵活的、精准的资源调度，可按节点调度、按GPU型号调度

√ 适用于所有场景；

√ 优化了容器云平台GPU资源的灵活调度；

√ 提供差别化，精准化，灵活化的资源调度能力，可满足容器云平台各类AI任务差异化的运行要求。

□ 实现“异构算力”全局调度与池化管理

√ 适用于所有场景；

√ 提供多种算力资源同一资源池全局调度与池化管理的能力，满足金融机构今后发展与转型的需求。

容器云平台对GPU资源的池化运维能力

□ 提供AI 算力热迁移能力

√ 适用于推理场景；

√ 当监控到物理卡故障时，可不中断推理应用，将业务在线热迁移至健康的算力卡上，有效提升保障推理业务的可靠性；

√ 当物理卡多个负载出现激增，可动态迁移该任务至其他算力卡上，实现业务负载均衡；

√ 需要硬件维护、软件升级、节点下线时，可将推理业务在线迁移至其他服务器上，为此类操作赢得运维窗口期；
√ 在保障业务可用性的情况下，实现对AI算力资源的动态管理和优化。

□ 提供资源分配限制

√ 适用于所有场景；

√ 容器平台可限制和控制能力，防止生产环境中客户对资源随意篡改。

□ 实现虚拟GPU的资源配额管理

√ 适用于所有场景；

√ 可以为不同用户，或不同组用户设定资源使用量限制。

□ 提供任务运行状态监控

√ 适用于所有场景；

√ 可监控每个任务的虚拟GPU资源使用情况，对资源使用趋势有直观的展示，方便运维了解和掌握每个任务运行情况。

□ 提供监控告警、日志收集、故障发现与恢复

√ 适用于所有场景；

√ 方便容器云平台对资源池的监控与运维。

容器云平台对GPU资源的高可用能力

□ 实现GPU资源池化平台的高可用性，满足金融行业客户AI业务生产的部署要求

√ 适用于所有场景；

√ 可为容器云平台在生产环境中使用虚拟GPU资源提供稳定性和高可用性保障。

05 成功案例

随着大数据和人工智能技术的发展，人工智能相关技术已在某证券内部多个业务场景里取得创新应用，包括精准营销、量化交易、智能投顾、智能诊股、营销反欺诈、相似 K 线等场景；类似应用案例都需要依托于海量金融、产业、行业相关数据，并通过数据挖掘、机器学习、深度学习等相关技术来实现。该证券关于“AI+HI”（人工智能+人类智慧）的智能投研平台建设正在逐步进行中。