SimAI万卡集群模拟器,LLM大模型训练通信计算模拟

SimAI,是阿里巴巴构建的一个统一的模拟器,旨在大规模精确有效地模拟LLM训练过程。通过将训练框架、内核计算和集体通信库有选择地高保真集成到仿真过程中,SimAI在仿真中实现了高精度。

简单点来说,SimAI就是模拟,大模型在大规模集群上的训练过程

视频分享在这:

SimAI万卡集群模拟器,LLM大模型训练 通信计算模拟,阿里巴巴_哔哩哔哩_bilibili

AICB工作负载生成器,LLM万卡集群模拟,大语言模型训练,Artificial Intelligence Communication Benchmark)_哔哩哔哩_bilibili

大模型计算仿真器SimAI-CM,LLM大模型训练模拟_哔哩哔哩_bilibili 

NCCL通信仿真器SimAI-CCL,大规模集群集合通信模拟_哔哩哔哩_bilibili 

一、集群模拟器出现的原因

1.1 大语言模型需要上万个GPU训练。

单个LLM训练所需的大量GPU严重阻碍了新设计、调优和优化的验证,需要高效模拟器的出现。

1.2 语言模型集群模拟有助于集群规划

它们有助于提高资源利用率,确保投资回报。因此,模拟器不仅是提高效率的工具,也是最大限度地利用资源并确保基础设施投资产生可衡量结果的战略资产。

二、 模拟器目标

目标1:生成反映真实世界培训的工作负载。

目标2:高保真通信仿真。我们需要一个包含关键优化和增强功能的高精度集体通信模拟器。

目标3:高保真计算模拟。我们需要一个高效的计算模拟器,为大规模模拟提供精度和可扩展性。

目标4:模拟速度快.

三、SimAI模拟器的总体思路

那目标既然已经确定了,那下面开干!我们需要实现哪些东西呢?

四、工作负载生成器:AICB

4.1 AICB简介

AICB (Artificial Intelligence Communication Benchmark), 

AICB(人工智能通信基准测试)是一种新颖的基准测试套件,用于从新兴训练和推理应用程序的前景中评估真实和仿真的 GPU 集群的通信系统。与现有的网络基准测试不同,AICB 旨在生成具有与实际应用程序一致的精确模式的通信工作负载。以大型语言模型 (LLM) 训练为例,工作负载随着模型、并行框架和模型参数、并行框架和集合通信库的复杂组合而变化。一般来说,适合使用 AICB 的场景包括但不限于

1GPU 集群通信系统的基准测试和调整

2) 调查和分析特定应用程序设置的通信模式

3) 需要详细描述工作负载的工具,例如模拟器。

这是官网对AICB的一些介绍,我们就记住AICB的两个核心目的

1、记录真实训练时的通信计算耗时

2、生产通信计算以及两者约束的工作负载文件。

4.2 AICB架构

我们正常的分布式执行架构

AICB架构

图我画了,具体区别这里就懒得打字了,大家看视频,哈哈哈,我承认我懒了!

AICB工作负载生成器,LLM万卡集群模拟,大语言模型训练,Artificial Intelligence Communication Benchmark)_哔哩哔哩_bilibili

4.3 AICB的输出

1、记录真实训练时的通信计算耗时

2、生产通信计算以及两者约束的工作负载文件。

五、计算仿真器:SimAI-CM

计算仿真器,本质就是一个通过实测得到的数据库,仿真时调用数据库。实在没法实测的就乘以一个系数估计。

六、通信仿真器,SimCCL

参考资料

GitHub - aliyun/SimAI

aicb: AICB (Artificial Intelligence Communication Benchmark)

SimAI: Unifying Architecture Design and Performance Tunning for Large-Scale Large Language Model Training with Scalability and Precision.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值