软件定义AI算力云化调度解决方案

virtaitech

于 2024-02-27 14:43:06 发布

阅读量1.5k

点赞数 14

文章标签：人工智能 gpu算力

本文链接：https://blog.csdn.net/m0_49711991/article/details/136317133

版权

人工智能已成为支撑企业数字化转型和提升我国核心竞争力的重要技术，国家高度重视人工智能芯片产业生态发展及国产化替代。伴随大模型时代的到来，算力需求持续增长而资源利用率低下的矛盾日益凸显，趋动科技提出软件定义的异构AI算力云化调度解决方案，通过软件定义的方式，利用硬件虚拟池化技术，基于云化调度引擎，解决AI算力资源碎片的问题，旨在为企业发展人工智能技术提供敏捷、高效、弹性、易用的异构算力资源。

当前技术现状及痛点

伴随大模型时代的到来，数据海量增加、算法模型愈加复杂、以及应用场景的深入发展，带来了行业对算力需求的快速提升。与此同时，国家高度重视人工智能芯片产业生态发展及国产化替代，国产化人工智能芯片专利数量不断增长，产业链和应用场景不断完善扩充。

图 1：异构AI算力使用面临的挑战

然而，AI算力需求持续增长但资源碎片问题难以解决，导致利用率低下的矛盾日益凸显，国产化替代带来的异构资源统一调度管理需求也迫在眉睫。

AI是一种高资源消耗、强计算的技术，异构AI算力的性能及调度直接关联到AI模型训练的精度与实时推理的结果。纵观整个AI模型开发、训练、推理等不同阶段，AI算力供给仍存在整卡分配粒度较粗、虚拟化后依旧静态绑定资源、异构算力无法统一纳管、多业务共存导致资源碎片化等诸多问题，主要表现在如下几个方面：

1) 缺乏数据中心级云化调度管理：AI任务的负载可能会随时间变化，无论是整卡或是切分后的静态绑定，均无法解决数据中心内部异构AI算力资源的统一管理、高效分配、灵活调度等难题，导致资源分配不足或过剩，进而导致开发、训练、推理多场景下算力资源成本高；

2) 缺乏灵活的调度策略：不同的场景下对算力的需求不同，大规模训练场景下通常所需的算力较高，而开发测试场景下所需的算力较少，现有的异构AI算力资源管理模式无法融合物理GPU和虚拟GPU，也无法动态转换，导致算力资源人为割裂，无法充分利用AI算力，导致资源浪费；

3) 缺乏任务排队机制：在共享异构AI算力资源的环境中，需要人工协调资源满足不同的算力需求，而需要优先执行的任务可能因等待AI算力资源导致任务执行的延迟；

4) 缺乏亲和性调度：由不同厂商或同一厂商不同型号构建的异构AI算力数据中心中，现有的共享算力方式无法提供节点亲和性、设备亲和性和任务亲和性等机制，导致算力资源冲突、网络负载增加、任务性能下降等问题。

面对如上问题，优化异构AI算力资源调度管理以提升整个智算中心算力利用率的迫切性将变得更为重要，趋动科技提供的软件定义异构AI算力云化调度是一种高效能、低成本的有力解决方案。

方案概述

趋动科技软件定义异构AI算力云化调度解决方案，将智算中心中包括英伟达、海光、华为和寒武纪等在内的不同品牌、不同型号的AI算力资源卡进行统一管理、池化、调度，提供云化的弹性、自愈、灵活等能力。

本方案采用管理面和数据面独立管理的方式，在数据面，全面完成对异构AI算力加速卡虚拟化适配；在管理面，通过池化手段，实现按需切分、远程调用、资源聚合、弹性伸缩等能力，此外，趋动科技还从多维度增强了对资源管控云化调度能力，强化了资源分配策略，以应对AI任务开发、训练、推理等不同业务场景下多方位的需求，从本质上解决AI业务主机与算力资源无法解耦、开发人员与运维管理人员无法解耦、硬件使用不灵活等问题。将“物美价廉”的算力注入AI模型中，减轻了井喷式数据爆发所带来的模型训练负担，并能及时根据用户使用情况弹性扩充或缩减虚拟算力资源空间。

该方案在提升整个智算中心的资源利用率的同时，降低运维人员对AI算力资源的管理难度，为开发人员提供更灵活的算力，最终达到达到方便、灵活、降本增效的效果。

2.1 方案业务架构

OrionX颠覆了原有的 AI 应用直接调用物理GPU的架构，真正实现AI 业务应用与物理 GPU解耦合，同时可以支持包括英伟达、海光、华为和寒武纪在内的多种异构算力卡的统一纳管，真正做到“一池多芯”。

对于AI算力的使用者而言，只需采用声明式的方式定义AI所需的算力资源，例如，需要多少OrionX vGPU，每个OrionX vGPU提供多少算力（算力占比Ratio，显存使用量GMEM）即可动态申请OrionX vGPU算力资源，而无需关心后端真正提供算力的节点、GPU设备。只有AI任务真正使用OrionX vGPU算力时，OrionX的云化调度器才会依据调度策略在整个算力集群内分配最优化的算力资源供AI业务使用，整个过程对用户而言是透明的。

图 2：软件定义异构算力多芯资源池架构

OrionX通过全自动管理算力资源云化调度方式，将AI算力虚拟化后构建IaaS对不断扩张的算力集群进行集中式管理，为客户提供灵活调度算力资源的服务，真正实现异构AI算力云化。算力资源池快满时，可及时购置更多的服务器，实现算力资源层面的弹性管理即时间与空间的灵活性，让用户高效、智能、灵活地使用算力资源，达到了降本增效的目的。

2.2 方案技术架构

OrionX Kubernetes Scheduler Extender是趋动科技专门为kubernetes开发的扩展调度，是在kubernetes原有的调度基础上扩展GPU算力虚拟化后的OrionX vGPU调度的能力。OrionX为Kubernetes提供两个插件，实现与K8S的集成对接。集成后，系统管理员利用K8S即可完成对GPU算力资源池中OrionX vGPU资源的配置和调度管理。与此同时，允许客户系统管理员通过单一接口调度全部数据中心资源，实现软件定义的智算中心。

图 3：OrionX与K8S集成

2.3 方案产品架构

软件定义的异构AI算力云化调度解决方案的产品架构可分为如下几层：

1) 运维层：主要负责自身组件的高可用管理、节点管理、运行时自动注入等，通过该层，可以极大的简化AI算力运维管理人员对整个数据中心中AI资源的统一监控、运维工作；

2) 池化层：主要负责对异构AI算力卡的资源抽象，通过OrionX vGPU的方式实现算力的按需切分、按需调用、资源超分等能力，AI业务无需修改即可透明使用OrionX vGPU算力资源；

3) 调度层：作为OrionX的核心能力，通过内置的多样化调度引擎，提供丰富的调度策略，满足业务人员高效、智能、灵活使用AI算力。

图 4：软件定义异构AI算力资源池核心功能

方案优势

趋动科技基于软件定义异构AI算力云化调度解决方案，依托自研的云化资源调度引擎，从多维度增强了异构AI算力资源管控能力，在提升整个数据中心资源利用率的同时，给予AI任务更大的资源调配的灵活性。

图 5：OrionX云化调度策略

1) 全局资源调度策略：OrionX提供节点/设备两维度的Binpack/Spread全局调度策略，并支持配置策略优先级，满足资源在集群范围内多样化调度选择。Binpack 紧凑策略有助于提升分配率，减少资源碎片，而 Spread 均衡策略倾向于将资源分散在整个集群中，提升故障隔离性。

a) 节点级Binpack/Spread策略：通过设置节点均衡/紧凑的全局调度策略，以节点维度进行任务的调度考量，节点均衡可避免热点主机，节点紧凑可减少节点级的资源碎片。

b) 设备级Binpack/Spread策略：通过设置设备均衡/紧凑的全局调度策略，以设备维度进行任务的调度考量，设备均衡可最大化减少资源竞争，设备紧凑可减少设备资源碎片。

2) 标签调度策略：OrionX提供了可供模型开发人员定制化调度的需求，将指定的任务调度到指定的节点/类型/设备上，满足不同场景下业务需求。

a) 指定节点：将任务调度到指定IP的节点上。

b) 指定类型/设备：将任务调度到指定类型/型号的OrionX vGPU上。

c) 指定任务亲和性：通过配置任务的亲和性，可以将具有波峰波谷的AI业务叠加到同一个物理AI算力卡上，利用资源超分能力，共享算力资源，提升资源利用率。

3) 优先级调度策略：

a) 队列优先级：当任务请求OrionX vGPU资源，遇到资源不足无法分配时，OrionX允许任务在任务队列中等待，直到队列中前面的任务运行完，在满足等待任务所需资源时，该任务可进入运行状态，并可以指定任务优先级，按照优先级进行全局排队，优先分配，以减少模型开发人员在资源管理方面的工作负担，充分利用闲时资源以提升整个集群的利用率。

b) 任务抢占：当高优先级的任务申请OrionX vGPU资源，但集群剩余资源不足而导致无法分配到资源时，OrionX支持通过抢占低优先级的任务资源，让低优先级任务提前退出，以释放资源给高优先级任务，满足高优先级任务的时效性。

4) 资源位置调度策略：

a) 本地优先调度：OrionX支持优先尝试分配任务本地的OrionX vGPU，如果任务本地没有足够的OrionX vGPU，则会分配不与任务在同一节点的远程OrionX vGPU资源（通过网络调用），以减少任务因本地资源不足导致的排队等待时间。

b) 强制本地调度：OrionX支持强制分配与任务在同一节点的的OrionX vGPU资源，以提供本地调用OrionX vGPU资源的最优性能。

5) 异构资源调度策略：

a) 双资源池调度：实现同一个资源池下，虚拟OrionX vGPU资源和物理GPU资源统一管理调度，并支持AI算力资源在两种状态之间切换，满足不同业务场景对AI算力资源的需求。

b) 异构算力调度：OrionX支持不同厂商、不同型号的多种异构设备统一管理和混合调度，满足不同业务场景对AI算力的需求。

6) 多卡调度策略：

a) 跨机多卡聚合：OrionX可以跨主机将多个AI算力聚合给一个用户使用，聚合过程无需用户感知。在训练场景中，模型训练无需分布式部署，在本地即可使用OrionX资源池中的任意AI算力资源，从而简化环境部署的复杂度，缩短训练时长，提升开发训练效率。

b) 跨机异卡调度：OrionX支持当申请多个OrionX vGPU时，这些OrionX vGPU一定会分布在不同的物理AI算力加速卡上，从而避免应用报错。

方案价值

软件定义异构AI算力云化调度解决方案的价值体现在以下几个方面：