OGAI详解：AIStation调度平台如何实现大模型高效长时间持续训练

本文链接：https://blog.csdn.net/annawanglhong/article/details/132900305

大模型是当前通用人工智能产业发展创新的核心技术，目前国内已发布的生成式AI模型超过了100个。面向以大模型为核心的生成式AI开发与应用场景，近日浪潮信息发布了大模型智算软件栈OGAI（Open GenAI Infra）——“元脑生智”，为大模型业务提供了全栈全流程的智算软件栈，包括AI算力系统环境部署、算力调度保障、模型开发管理等。OGAI软件栈由5层架构组成，从L0到L4分别对应于基础设施层的智算中心OS产品、系统环境层的PODsys产品、调度平台层的AIStation产品、模

一、大模型训练面临巨大挑战

1.大模型训练巨大算力成本和算力利用难题

大模型训练要面对的首要挑战就是海量数据和计算量，算力开销巨大，如GPT-3是在10000个GPU上训练得到的，“源1.0”模型是在2128个GPU上通过AIStation平台完成1800亿tokens的训练，训练一个万亿token的700亿参数模型将花费上百万美元。但计算平台的性能通常不能随着算力线性增长，而是会出现耗损，因此大模型训练还需要高效的算力调度来发挥算力平台的效能。而这不仅需要依赖算法、框架的优化，还需要借助高效的算力调度平台，以根据算力集群的硬件特点和计算负载特性实现最优化的算力调度，整体提高算力利用率和训练效率。

2.耗时且维护复杂的多种网络兼容适配

大模型训练过程中，成千上万颗GPU会在节点内和节点间不断地进行通信。为了获得最优的训练效果，单台GPU服务器会搭载多张InfiniBand、ROCE等高性能网卡，为节点间通信提供高吞吐、低时延的服务。但不同的网络方案各有优劣，InfiniBand因性能优异已被公认为大模型训练的首选，但其成本较高；RoCE虽然成本较低，但在大规模的网络环境下，其性能和稳定性不如InfiniBand方案。因此要想满足大模型训练对通信的要求，就要对集群网络中的通信设备适配使用和网络情况进行探索和设计。

3.不稳定的大模型训练和高门槛的系统级别优化

大模型训练过程比传统的分布式训练复杂，训练周期长达数月。集群计算效力低、故障频发且处理复杂，会导致训练中断后不能及时恢复，从而会降低大模型训练的成功概率，也会使得大模型训练成本居高不下。因此，大模型对训练的稳定性、故障检测与训练容错提出了更高的要求。同时简化大模型分布式任务提交、实现智能与自动化的任务资源匹配和训练健壮性也是提升训练效率的重要保证。