深挖Cerebras：世界上最大AI芯片的架构设计

OneFlow深度学习框架

已于 2022-09-30 15:55:49 修改

阅读量6.5k

点赞数 4

分类专栏：前沿技术文章标签：芯片神经网络深度学习人工智能 cerebras

于 2022-09-29 09:55:30 首次发布

本文链接：https://blog.csdn.net/OneFlow_Official/article/details/127116569

版权

Cerebras通过重新设计计算核心架构，实现了内存带宽的巨大提升，允许所有BLAS级别的极致性能。其晶圆级芯片WSE-2拥有85万个AI优化核，支持超大规模模型的训练。通过权重流式技术，单个芯片即可运行超大模型，简化了横向扩展，仅需数据并行，无需复杂的模型并行分割。Cerebras的创新方法旨在解决AI计算的挑战，提供数量级的性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者｜Sean Lie

翻译｜胡燕君、程浩源

近年来，神经网络模型规模呈指数级增长，从2018年拥有超1亿参数的Bert到2020年拥有1750亿个参数GPT-3，短短两年模型的参数量增加了3个数量级，而且这种增长还看不到尽头。

人们刚刚开始发掘神经网络的应用潜力，但传统的训练和推理方式已然无法跟上神经网络规模的飞速增长速度，无法满足大规模机器学习所需的内存和算力需求。为此，国内外诸多创业公司寻求对软硬件等进行实质性的底层技术革新来解决这一挑战。

作为业内备受关注的AI加速器创业公司，成立于2016年的Cerebras希望通过构建全新AI加速器方案解决AI计算问题，以实现数量级计算性能：首先，需要改进计算核心架构，而不只是一味地提升每秒浮点运算次数；其次，需要以超越摩尔定律的速度提高芯片集成度；最后，还要简化集群连接，大幅度提升集群计算效率。

为了实现上述目标，Cerebras设计了一种新的计算核心架构。它让单台设备运行超大规模模型成为可能，此外，它开发出只需简单数据并行的横向扩展和本地非结构化稀疏加速技术，使大模型的应用门槛大幅降低。

图1：近年来各SOTA神经网络模型的内存与算力需求

2021年，Cerebras曾推出全球最大AI芯片Wafer Scale Engine 2（WSE-2），面积是46225平方毫米，采用7nm工艺，拥有2.6万亿个晶体管和85万个AI优化核，还推出了世界上第一个人类大脑规模的AI解决方案CS-2 AI计算机，可支持超过120万亿参数规模的训练。今年6月，它又在基于单个WSE-2芯片的CS-2系统上训练了世界上最大的拥有200亿参数的NLP模型，显著降低了原本需要数千个GPU训练的成本。

在近期举办的Hot Chips大会上，Cerebras联合创始人&首席硬件架构师Sean Lie深入介绍了Cerebras硬件，展示了他们在核心架构、纵向扩展和横向扩展方面的创新方法。以下是他的演讲内容，由OneFlow社区编译。

Cerebras计算核心架构

计算核心（compute core）是所有计算机架构的“心脏”，而Cerebras针对神经网络的细粒度动态稀疏性重新设计了计算核心。

图2：Cerebras计算核心