算力QoS技术革新：OrionX引领AI行业资源管理新趋势

virtaitech

已于 2024-07-30 11:40:31 修改

阅读量860

点赞数 7

分类专栏： OrionX 文章标签：人工智能

于 2024-07-30 11:39:50 首次发布

本文链接：https://blog.csdn.net/m0_49711991/article/details/140792139

版权

OrionX 专栏收录该内容

74 篇文章 1 订阅

订阅专栏

01 前言

在当今数字化时代，人工智能（AI）已成为各行业发展的关键推动力。然而，随着AI技术的蓬勃发展，行业对计算资源的需求也日益增长，传统的资源分配方式已无法满足需求。

在这一背景下，算力QoS（Quality of Service）技术的出现显得尤为重要。算力QoS解决了资源匮乏、任务排队等待以及紧急事件处理等问题，可显著提升业务的高可用性和效率。

本文将探讨基于智能算力调度的GPU池化技术在AI行业中的重要性，以及对提升业务效率和推动行业发展的巨大意义。

02 算力QoS的重要性与场景需求

在数字化时代，随着人工智能（AI）技术的快速发展，对计算资源的需求也日益增长。算力调度作为确保计算资源高效利用的重要环节，在各行业应用中扮演着关键角色。高效、灵活的算力调度不仅是提高资源利用率的关键，更是保障业务持续性、提升响应速度和满足业务需求的必要条件。

在资源充足时，算力池不仅可以将多个任务调度到更少的算力节点，降低能耗使用，还能够将多个任务分散调度到多个算力节点，确保业务使用性能，减少因单节点故障带来的风险。

在资源紧缺时，算力池通过智能调度，保障重要业务的算力需求。特别是在处理大规模数据集时，如机器学习训练任务或数据分析任务，算力调度确保每个任务都能够及时获得所需的计算资源，提高处理效率，加速模型训练过程。

在重要任务保障方面，算力调度扮演着至关重要的角色。必须确保重要业务能够随时有资源可用，即使在高峰期或突发情况下，系统也能够优先保障重要任务的资源需求，保障业务的稳定运行，从而为用户提供了更加可靠和高效的服务保障。

对于紧急任务处理，如安全事件响应或突发事件处理，算力调度能够通过任务排队和智能调度算法，保障紧急任务优先获得资源，加快响应速度，确保重要业务的及时执行。

在业务持续性保障方面，当发生硬件故障或其他紧急情况时，算力调度还能提供快速恢复业务运行的保障机制，降低业务中断风险，保证业务的连续性和稳定性。

综上所述，算力QoS在现代AI场景中扮演着至关重要的角色，不仅需要具备高效的调度算法和智能管理机制，更需要与业务需求紧密结合，以确保资源的最大化利用和业务的稳定运行。

03 传统架构下的算力管理

· 传统单机方案

传统单机方案存在多方面的局限性。

首先，由于单个计算机的性能有限，特别是在处理复杂的深度学习模型时，往往性能不足以满足大规模的AI任务需求。其次，单机方案的可扩展性较差，随着任务规模增加，无法有效地实现扩展，无法满足大规模并行计算的需求。此外，维护单机的成本相对较高，包括硬件故障处理和升级等方面，常需停机维护，影响业务的连续性，增加了管理的复杂性和成本负担。这些问题严重限制了单机方案在面对现代AI任务时的使用范围。

· 单机切分方案

在单机切分场景下，目前主要有硬件或软件切分两种方案，以满足不同场景需求。

以Nvidia Mig为代表的硬件切分技术

在硬件切分方案中，以Nvidia的MIG硬件切分技术为代表，通过在硬件层面实现GPU资源的划分，可以将一块GPU物理设备划分为多个逻辑设备，每个逻辑设备都可以独立分配给不同的任务使用，提高了单卡利用率，但配置与运维难度增加，只有特定的硬件型号支持，同时该技术仅适用于容器场景。

以Nvidia VGPU和GPU Manager为代表的软件切分技术

软件切分方案则以Nvidia VGPU和GPU Manager开源软件切分技术为代表，能够在软件层面实现单卡算力资源的动态切分。虽然相比硬件切分，具有更高的灵活性，但在使用场景、资源调度和管理方面也仍然存在一定的弊端。

Nvidia VGPU技术仅适用于Nvidia的中、高端GPU，且只能进行资源均分、只能应用于虚拟机场景。而基于GPU Manager的开源技术，虽然切分更加灵活，但仍然局限于单机以内的算力资源切分，任务无法实现跨卡使用，只能应用于容器场景。

04 面临的问题与挑战

不管是采用简单、快速的单机方案，还是灵活、高效的算力切分方案，都会存在以下几种不同的资源调度和资源运维上的问题和挑战：

1) 资源浪费严重，却要采购更多的算力设备

在传统方案下，由于资源分配方式，其算力切分方式、支持的云环境、远程调用支持、及任务大小需求不均匀等多方面因素，导致大量算力资源仍然存在长时间处于空闲状态，造成资源严重浪费；为了保障业务上线，用户不得不采购更多的算力设备，进一步加剧了成本开销。

2) 传统的调度方式拖慢业务上线

传统的单机方案和切分方案，当单节点剩余资源不足时，当有新业务上线时，仍然需要从算力卡型号、业务模型资源需求量、剩余资源量、云环境等多个维度进行综合评估，并最终确定和分配资源，这种方式导致了业务上线速度缓慢、周期延长等问题。

3) 资源闲滞，业务却只能望梅止渴

传统架构下，资源闲置却无法使用；这直接影响了业务的快速上线，因为即使数据中心内有可用资源，但由于缺乏远程调用能力，无法灵活地调用这些资源。这种限制导致业务无法及时部署，可能会延迟项目进度，增加额外的成本和管理负担。

4) 有资源未使用，却无法分配给新的业务使用

在传统架构下，当单卡算力资源一旦分配完毕，即使已经被分配的资源未被使用，也无法重新分配给其他业务使用，造成了算力资源白白浪费。这种情况下，新业务往往无法及时得到满足，导致上线速度明显变慢。

5) 紧急的任务，无法快速获得资源

传统架构缺乏任务排队机制，业务资源无法保障，资源一旦分配完毕，即使有紧急任务等待执行，也无法优先获取算力资源。重要的业务上线受常规业务影响，无法快速获得资源，必须要人工干预才能解决。这严重影响了业务的响应速度和处理灵活性。

6) 重要的任务，难以保障业务连续性

传统架构下，业务连续性受到威胁；重要任务一旦遇到硬件故障，无法保障业务的持续运行，需要人工修复后才能恢复。这严重影响了业务的连续性，降低了用户使用体验。缺乏自动化的故障恢复机制，使得应对硬件故障变得耗时且不可预测，进一步加剧了业务的不确定性和风险

05 解决方案

趋动科技提供的OrionX软件定义异构AI算力云化调度解决方案，能够统一管理和调度算力中心中的各种品牌、不同型号的AI算力资源卡，其中包括英伟达、寒武纪、海光、华为等。该解决方案具备云化的弹性、自愈和灵活等关键能力，以应对不断变化的业务需求和挑战。

图1. 趋动科技OrionX解决方案架构图

OrionX方案采用管理面和数据面独立管理的方式：在数据面，将AI业务数据流独立出来，充分发挥GPU算力的优势，最大化加速AI的训练速度；在管理面，能够对所有算力节点的算力资源进行集中化的监控和管理，实现算力节点的集中化管理。

OrionX软硬件解耦架构，使得客户端和服务器端可以分离部署，从而实现更灵活的部署和管理，最大程度提升算力调度效率；只要算力池内有剩余资源，就可以快速调度到适当的资源来满足AI应用的使用需求，而不用关心算力所在的节点位置。这样不仅大大提高了GPU算力资源的利用率，同时也对常规、重要和紧急不同级别的任务提供更加科学的资源保障机制。具体实践场景包括：

1) 资源动态申请和释放，让单卡叠加更多的AI业务

OrionX方案实现了资源的动态申请和释放，使得单卡能够叠加更多的AI业务。用户可根据实际需求灵活申请所需算力资源，当在业务执行完毕后，系统会自动释放这些资源，不仅提高了资源的利用率和效率，还能够更好地满足用户不同场景下的需求，从而为用户提供了更为灵活、高效的资源管理解决方案。

2) 资源超分，让已分配的资源不再闲置

传统架构下的资源分配问题导致了已分配的资源闲置，无法为新的业务使用，进而影响了业务的快速上线和响应速度。然而，通过资源超分技术，OrionX允许重新分配已分配但未使用的资源，使得闲置资源得以充分利用，同时满足新业务的需求，从而提高了资源利用率和业务的响应速度。

3) 远程调用，让AI任务资源随处可达，不再受限于单算力节点

远程调用允许AI业务从远程位置动态获取算力资源，使得AI任务不再受限于单一算力节点，而是能够随时随地获取所需资源，极大地提高了资源的可达性和利用率。这种灵活的资源调用方式不仅能够满足不同业务场景下的需求，还能够加速业务的上线和执行，为系统带来了更大的灵活性和效率。

4) 资源预留，确保重要业务，总是有资源可用

通过在算力池中设置资源预留机制，系统可以根据业务的重要性和优先级，预先分配一定比例的资源，以确保在高峰期或紧急情况下能够满足重要业务的需求。这种预留机制能够提高系统的稳定性和可靠性，保证关键业务的持续运行，为用户提供更加稳定、高效的服务。

5) 任务排队，让重要的业务，有资源优先使用权

算力资源池化实现了智能任务排队和优先级调度机制，确保重要任务能够优先获取资源并及时执行，避免紧急任务无法快速获得资源的问题。这种机制解决了紧急任务无法快速获得资源的挑战，提高了业务的响应速度和处理灵活性。

6) 资源抢占,保障紧急任务，随时有可用资源

当高优先级的任务申请资源，但 OrionX 算力资源池内剩余资源不足而导致无法分配到资源时，可以通过抢占低优先级的任务资源，让任务提前退出，从而空出足够的资源分配给该任务。这种机制能够保障紧急任务的及时执行，提高了系统的灵活性和响应速度，确保了业务的持续稳定运行。

7) 自动化故障恢复，确保重要业务连续运行

当发生硬件故障或其他意外情况时，OrionX可结合AI应用的高可用架构，实现故障的自动化恢复。同时基于OrionX的实时监控和报警功能，能够及时发现并处理潜在的故障，保障了整个系统的稳定运行，大大降低了运维人员的工作负担，减少了人为干预的需要，提高了系统的可靠性和可用性，为用户提供了更加稳定和可靠的服务。

通过以上解决方案，GPU资源池能够有效应对传统架构下的资源调度和管理挑战，提高资源利用率、降低运维成本，为业务的快速发展和持续运行提供可靠的基础支持。