AIDC智算中心建设：资源池化核心技术解析-CSDN博客

本文链接：https://blog.csdn.net/u013891230/article/details/147711726

一、池化技术架构

智能算力池化指依托云计算技术，整合 GPU/AI 芯片等异构算力资源，构建集中管理的资源池，并按上层智算业务的需求，对池化的资源进行统一调度、分配，实现智算业务生命周期管理的全套技术。为解决智算中心所面临的资源利用率低下问题，算力池化基于传统云计算技术(如 Kubernetes、OpenStack，智算中心以 Kubernetes 为主)有针对性地增强 GPU/AI 芯片池化能力，采用软件定义的方式, 对 GPU/AI 芯片进行分时调度管理，实现按 GPU/AI 芯片的细粒度分配资源，并采用 GPU/AI 芯片 Runtime API 劫持、应用程序监视器等技术，实现资源跨节点远程调用、零散资源整合等，从而达到算力资源充分利用、碎片最小化效果，可有效提升资源效率，降低智算中心整体建设成本。

如上图，Kubernetes 作为池化平台的技术底座，主要承担 CPU 的管理调度和作为 AI 任务载体的容器 POD 的生命周期管理功能，通过对 Kubernetes 调度能力的扩展，将 GPU 等智算的管理功能转移至独立的池化控制器执行。而在业务侧，在容器 POD 内植入完全仿真 GPU 卡的原生运行时的池化运行时组件，AI 应用可以像在真实环境中一样运行无感知，通过池化运行时劫持 AI 应用对 GPU的访问 API 并转交池化服务代理执行，再由池化代理配合池化控制器实现敏捷管理功能。

算力池化平台逻辑上可分为池化资源管理、资源服务代理、池化运行时三类模块组成：

池化资源管理

Kubernetes管理组件：基于Kubernetes原生管理服务组件定制化增强，如支持分布式文件存储、支持 POD 多网络平面、支持 RoCEv2/Infiniband 网络等。
Kubernetes调度扩展：关联Kubernetes调度服务扩展专用的池化资源类型，对该类资源的请求转递智算资源池化控制器进行调度、分配，需配合Kubernetes设备插件使用。
智算资源池化控制器：对GPU、AI芯片等智算进行统一管理、调度、分配。

资源服务代理

池化服务代理：根据智算资源池化控制器的调度结果，将池化运行时对资源的访问请求重定向到实际物理位置执行，如涉及跨机访问智算资源，则需相关服务器上的池化服务代理多次重定向，跨机重定向的流量需经由高速无损网络(如参数面网络)。
Kubernetes服务代理：基于Kubernetes原生服务代理组件定制化增强。
Kubernetes 设备插件：配合Kubernetes调度扩展，为Kubernetes服务代理注册专用的池化资源类型。
容器运行时：基于原生容器运行时(如Dockerd、Containerd 等)定制化增强。

池化运行时

池化运行时：依托GPU、AI芯片的原生运行时(如CUDARuntime) 进行二次封装，采用 API 劫持、应用程序监视等技术，将 AI 应用软件/AI 开发框架对算力资源的访问转递至池化服务代理执行。池化运行时位于容器 POD 内，在容器运行时由自动注入。

根据上述技术架构，当AI应用编排器通过调用 Kubernetes API 创建应用时，可按新增的池化资源类型指定申请的资源数量(如 pool.kubernetes.io/gpu: 1)，对该类型资源的申请会被Kubernetes调度扩展拦截、转递至智算资源池化控制器进行调度，智算资源池化控制器按申请的资源数量、资源池内空闲资源分布情况进行调度后，将调度结果响应给 Kubernetes 管理组件，然后 Kubernetes 管理组件正常执行AI应用的创建流程，由 Kubernetes 服务代理创建最终 POD 作为交付物，并通过池化服务代理配合在 POD 中自动注入池化运行时、通过 Kubernetes 设备插件配合在 POD 中插入虚拟 GPU。

AI 应用的POD在运行的时候，通过池化运行时访问虚拟GPU、执行AI任务，池化运行时拦截对虚拟GPU的访问请求、转递给池化服务代理执行，池化服务代理通过向智算池化控制器查询虚拟GPU所对应的真实智算资源位置、规格，按查询结果分配智算资源、执行AI任务，如果真实的智算资源位于远程计算节点，则由本地池化服务代理将访问请求转递给远程计算节点上的池化服务代理处理，相关通信经由参数面网络。

二、池化核心技术

API 劫持技术

API 劫持技术是目前比较普遍的、针对智能算力的池化技术，它通过劫持对 Runtime API(如 CUDA API)调用实现资源调度。AI 应用的容器 POD 内运行的池化运行时并非 GPU/AI 芯片原生的运行时，而是基于原生运行时进行了一定定制化的版本，它对上层应用所提供的 API 接口完全等同于原生运行时，因此对 AI 应用来说是透明的。当 AI 应用访问池化运行时的 API 时，则被池化运行时转递至池化服务代理执行，池化服务代理则具备敏捷化的资源管理功能，比如按 1%算力、1MB 缓存的精度细粒度分配资源，实现跨节点远程调用资源等。

API 劫持技术的关键在于池化运行时仿真 GPU/AI 芯片的原生运行时，由于 GPU/AI 芯片种类、型号繁多，其原生运行时又相对活跃、升级频繁，仿真工作较为复杂，开发量、维护难度较大。

应用程序监视器技术

这是一种完全与 GPU/AI 芯片无关的设备虚拟化和远程处理方法, 允许在没有显式软件支持的情况下启用新的硬件体系结构。该项技术通过应用程序监视器工作，该监视器与 Hypervisor 管理虚拟机的方式类似，分为前端、后端，前端监视指定应用程序的活动，拦截至后端处理，后端可以按应用程序申请的数量分配资源，或将应用程序拆分到多台机器上运行，在保持代码、数据和执行环境一致性的前提下使用这些机器上的智算资源，从而实现资源的细粒度管理、远程调用等资源敏捷化管理功能。应用程序监视器负责维护应用程序状态(内存、文件、应用程序库的加载)，以及虚拟化与系统的交互(例如系统调用和进程间通信)，以确保在多个位置执行时的一致性。

与 API 劫持技术直接介入到 AI 应用访问资源的流程、需要仿真原生运行时的 API 接口的方式不同，应用程序监视器不介入到 AI 应用访问资源的流程，而是通过更底层的系统调用隐含而广泛的支持更多种类、型号的硬件和新的运行时功能，其实现方式与特定的运行时 API(如 CUDA)无关，具备更加强大的通用性和兼容性。该池化技术实现较为复杂，但灵活性较高，然而 GPU/AI 加速卡驱动的接口多为不透明, 对驱动调用的劫持面临一定的兼容性问题，且存在一定的法律风险。应用程序监视器技术是一种新型的池化方案，目前VMware 的 Radium、阿里云的 cGPU、腾讯云的 pGPU 等产品为典型代表。

两种方案在集成实现难度、性能表现、升级适配等方面各有优劣，项目应用落地时需根据实际应用情况选择。除此之外，其他一些大厂也有各自的池化方案。

三、展望

当大模型迈进万亿参数量规模，算力、显存和互联的需求再次升级，智算中心将真正进入超级池化时代，高速互联的百卡组成的“超级服务器(Super Server, S2)”可能将成为新的设备形态。传统以单机8卡为最小单元的智算中心设计思路需要革新，“超级服务器”内需要打造统一的协议实现 CPU、GPU、AI 芯片、显存、存储等池化资源的无缝连接，进而通过 GSE 等高性能交换网络，达到极高吞吐、极低时延的系统算力；为推动算效能力进一步提升，基于存算一体架构的大算力芯片将开始逐步应用；存储系统在“超级服务器”内支持内存池技术，对外扩展支持全局统一存储；针对日益割裂的智算生态，需要构建基于算力原生平台的跨架构开发、编译、优化环境，屏蔽底层硬件差异，从软件层面最大化使能异构算力融通。