大模型实战：万亿赛道！AI 服务器设计及解决方案 2024

最新推荐文章于 2025-05-10 22:50:00 发布

AGI-杠哥

最新推荐文章于 2025-05-10 22:50:00 发布

阅读量1k

点赞数 20

分类专栏：兼职副业 AGI 学习路线文章标签：人工智能服务器百度

本文链接：https://blog.csdn.net/m0_71745484/article/details/144505810

版权

AGI 同时被 3 个专栏收录

1445 篇文章

订阅专栏

兼职副业

613 篇文章

订阅专栏

学习路线

235 篇文章

订阅专栏

生成式AI的算力需求与挑战

自OpenAI的ChatGPT发布以来，生成式AI技术获得了广泛关注，一系列开创性研究成果相继发布，引领了人工智能的新一轮创新浪潮。

AI大模型是生成式AI的关键底座，得益于泛化能力强、长尾数据依赖性低以及下游模型使用效率高，大模型被认为具备了“通用人工智能AGI”的雏形。

相比传统AI模型，大模型的训练使用了更庞大的数据，具有更巨量的模型参数和更发散的下游应用场景，对全社会生产力和生产效率的提升、传统产业转型升级具有重大的价值潜力。因此，全球范围内已经掀起了一场生成式AI革命，政策和资本驱动生成式AI技术加速商业化落地。

AI大模型发展需要庞大的AI算力支撑，大模型往往采用无标注、自监督的训练方法，使用海量数据做超大规模的模型训练，因而对于算力的需求和传统的模型训练相比也出现了3~4个数量级的提升。

当前语言大模型的参数量已达千亿以上，训练数据集的规模也达到了TB级别。业界典型的自然语言大模型有GPT、LLAMA、PaLM、文心、悟道、源等。

如果用“算力当量”（PetaFlops/s-day，PD），即每秒千万亿次的计算机完整运行一天消耗的算力总量来表征大模型的算力需求，具有1750亿参数的GPT-3模型的训练算力需求为3640PetaFlop/s-day。

参数量为2457亿的源1.0大模型训练算力消耗为4095PetaFlop/s-day。

大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。

在全球科技企业加大投入生成式AI研发和应用的大背景下，配置高算力AI芯片的AI服务器需求也不断高涨。

随着市场对AI计算力需求的不断攀升，全球已有上百家公司投入新型AI加速芯片的开发，AI计算芯片多元化趋势愈发显著。

但因为各厂商在AI开发中采用了不同的技术路线，导致芯片的接口、互连、协议上互不兼容，而专有AI计算硬件系统开发周期长、研发成本高，严重阻碍了新型AI加速器的研发创新和应用推广。

全球开放计算项目组织OCP发起开放加速规范OAI，但在推向产业落地的过程中，依然存在大量的定制化工作以及现有标准未能完全覆盖的领域，包括多元AI芯片适配、AI算力资源管理和调度、数据整合及加速、深度学习开发环境部署等多个方面。

开放加速规范AI服务器开发背景

最初的深度学习模型通过单张加速卡或者多卡间PCIe P2P通信的方式来满足模型训练和推理的计算需求。

随着AI大模型的快速发展，加速卡间通信的数据量越来越多，仅仅通过PCIe P2P通信已经无法满足超大规模深度学习模型的通信需求。

另一方面，单张AI加速卡的功耗随算力提升逐代显著增加，PCIe物理形态难以满足高功耗芯片的供电和散热需求。

NVIDIA公司推出了非标准PCIe CEM形态的NVLINK接口的GPU 加速卡，从而支持更高的功耗和更大的卡间互连带宽。

但是，由于缺乏统一的业界规范，不同厂商的AI加速芯片无论在结构上还是电气特性上都存在显著差异，导致不同芯片需要定制化的系统硬件平台承载，带来更高的开发成本和更长的开发周期。

2019年OCP成立OAI小组，对更适合超大规模深度学习训练的AI加速卡形态进行了定义，目的是为了支持更高功耗、更大互连带宽AI加速卡的物理和电气形态，同时为了解决多元AI加速卡形态和接口不统一的问题。

随后，为了进一步促进OAI生态的建立，OAI小组在OAM的基础上统一了AI加速卡基板OAI-UBB（Universal Baseboard）设计规范。

OAI-UBB规范以8张OAM为一个整体，进一步定义了8xOAM的Baseboard的主机接口、供电方式、散热方式、管理接口、卡间互连拓扑、Scale Out方式。

2019年底，OCP正式发布了OAI-UBB1.0设计规范，并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台，无需硬件修改即可支持不同厂商的OAM产品。近年来，以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的AI服务器，开展了丰富的产品和应用实践，验证了开放加速技术的可行性，逐步构建起开放加速计算的生态体系。