RapidFS 为昆仑芯 3 万卡集群加速,国产化平台 TiB 级吞吐让数据随叫随到

1.    引言

大模型的训练和推理任务,本质就是海量数据处理的过程。强大的算力集群,不仅需要高性能的 AI 加速卡和高性能的 RDMA 网络,还离不开高性能存储系统的支持。

当前,在大模型训练任务的数据读取、Checkpoint 加载,推理任务的快速分发和镜像加载等场景,数据的大小少则几十 GiB,多则几百 TiB 甚至至多达到数 PiB。存储速度越快,算力空闲时间越短。这需要一套能够支持大规模算力集群、海量数据场景的高性能存储加速系统。

2.    RapidFS 存储加速集群

在 Create 2025 大会,昆仑芯 3 万卡集群正式发布。为此,我们为 RapidFS 存储加速服务部署了数百台国产 CPU 服务器,集群设计总吞吐接近 10 TiB/s,以满足 3 万卡昆仑芯集群大规模数据读写需求。

我们使用部分资源进行了 RapidFS 性能测试(更多测试细节见后文)。

测试结果显示,20 个 RapidFS 存储节点稳定提供了 302 GiB/s 吞吐,70 个 RapidFS 存储节点稳定提供了 1.03 TiB/s 吞吐。单台 RapidFS 存储节点可提供 15 GiB/s 吞吐,折合单 TiB(裸容量)300 MiB/s。

这些数据表明 RapidFS 存储加速集群的吞吐性能,随着集群规模线性增长。单台 RapidFS 存储节点经过软硬一体的协同优化,充分发挥出国产 CPU 的性能和软件加速效果。

同时,这也意味着在 70 个 RapidFS 存储节点提供加速的情况下,100 个计算节点并发加载 10 GiB 的文件仅需 1 秒,让数据随叫随到。

3.    RapidFS 产品简介

RapidFS 是一款近计算存储加速工具。依托对象存储 BOS 作为数据湖存储底座,构建容量与性能解耦、冷热分层、透明流转的高性能存储方案。以 POSIX 挂载和 HDFS 协议,为上层计算应用提供统一文件访问入口,加速 AI 训练与推理、海量数据处理与分析、数据分发等业务场景下的存储访问。

产品概述

4.     性能测试详细说明

4.1.    服务器配置

在本次测试的昆仑芯 3 万卡集群中,百度智能云 RapidFS 以全托管集群方式部署于国产 CPU 服务器,作为近计算存储加速服务使用。详细配置如下:

图片

4.2.    测试规模

我们分别对 20 个存储节点和 70 个存储节点规模的 RapidFS 集群进行了性能测试。

4.3.    测试方法

按照 DeepSeek V3 模型文件构造 160 个 4.3 GiB 文件,总计 688 GiB。将这些文件导入对象存储 BOS 并加载至 RapidFS 存储加速集群中。每个计算节点开启 8 进程从 RapidFS 存储加速集群中读取模型文件,持续压测 600 秒。

4.4.    测试结果

测试集群 A:20 个 RapidFS 存储节点

图片

测试集群 B:70 个 RapidFS 存储节点

图片

百度智能云 RapidFS 存储加速集群用数据证明了国产算力基础设施的突破潜力。存储性能与算力需求实现「同频共振」,成为大模型训练与推理的效率助推器。

### SimAI集群模拟器概述 SimAI集群模拟器是一款专为大语言模型训练设计的工具,能够有效模拟大规模GPU集群环境下的通信和计算过程[^1]。该模拟器特别适用于研究和开发人员测试不同规模下模型训练的效果。 ### 安装指南 对于希望部署SimAI集群模拟器的研究者来说,官方提供了详细的安装指导文档。通常情况下,安装流程涉及以下几个方面: - **依赖项准备**:确保环境中已安装必要的软件包以及库文件。 - **源码获取**:通过Git或其他版本控制系统下载最新版源代码。 - **编译构建**:按照README.md中的指示完成项目的编译工作。 - **配置参数调整**:依据实际需求修改默认设置以适应特定应用场景。 具体操作命令如下所示: ```bash git clone https://github.com/SimAICluster/simai.git cd simai pip install -r requirements.txt python setup.py install ``` 上述脚本用于克隆仓库并执行Python包管理器来安装所需的第三方模块。 ### 使用方法简介 为了帮助用户更好地理解和应用此工具,开发者编写了一系列教程文章和技术手册。这些资料涵盖了从基础概念介绍到高特性使用的各个方面。例如,在启动一次完整的仿真实验之前,建议先阅读`docs/quickstart_guide.pdf`这份快速入门向导;而对于更深入的功能探索,则可以参阅`examples/tutorial.ipynb`这个Jupyter Notebook形式的教学实例。 另外,针对某些特殊场景的需求(比如自定义网络拓扑结构),还可以查阅API参考页面了解如何编程接口调用来实现个性化定制功能。 ### 获取更多资源 除了官方网站外,社区论坛也是交流经验和解决问题的好去处。在这里不仅可以找到其他用户的分享贴子,还能直接向维护团队提问获得及时反馈和支持。此外,GitHub Issues板块同样是一个重要的沟通渠道,适合报告Bug或者提议新特性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值