芯片架构设计及其作用

seasermy

已于 2024-03-15 14:40:21 修改

阅读量2.2k

点赞数 25

分类专栏： GPU并行优化技术文章标签：人工智能 AIGC ASIC 芯片架构设计软硬协同 CUDA GPU

于 2024-03-14 13:59:47 首次发布

本文链接：https://blog.csdn.net/seasermy/article/details/136708694

版权

GPU并行优化技术专栏收录该内容

3 篇文章

订阅专栏

本文探讨了芯片架构设计的重要性，包括市场需求调研、竞品分析，以及硬件架构（如NVIDIAGPU、TPU和昇腾架构）和软件架构设计的考量因素，强调了性能评估与模型建模在设计过程中的关键作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

芯片架构设计是芯片流片前很重要的一个环节，俗称pre-silicon，芯片架构设计的好坏，决定了芯片产品的质量，决定了芯片产品是否易用，决定了芯片产品的性能，决定了芯片产品在市场上是否具有持久性。芯片生产是个大工程，芯片硬件和芯片软件具有非常不同的特性，芯片软件在release后可以持续完善和优化，但芯片硬件一经流片就无从更改（重新流片一次要几千万）。

打个形象的比喻，芯片架构设计就像大楼施工前的图纸设计，各种事情（户型，地基，车位，绿化，布线，监控，采暖，上下水，采暖，空调，通风，电梯，安全，材料选取，成本等）都要考虑好，一经施工，无从更改，要么成为精品小区，要么成为烂尾楼。

芯片架构设计概览

在架构设计前，需要进行市场需求调研，同时进行竞品调研，保障芯片在生产出来的时候，能满足市场需求，能有更大竞争力。

市场需求调研

目前大语言模型和多模态模型蓬勃发展，芯片设计前需要进行尽可能多的市场调研，涉及如下方面：

-大模型的模型规模和计算类型是什么趋势？算力和带宽需求是什么？

-大模型的输入sequence length是否更长？多模态模型和LLM模型的输入sequence length有什么区别？

-芯片是面向大模型的推理，还是训练？市场需要的性能目标是什么？

-是否需要互联？互联带宽多少？

-未来的大模型的技术变化趋势？什么样的attention优化技术是最优的？

-芯片的面向客户对各种low precision的接受度和需求度如何？

-芯片面向客户的编解码需求是什么样的？性能指标是什么？

-客户的部署习惯影响芯片的使用和设计，一定要摸清？客户业务的痛点是什么？

-存储需求是什么样的？

-芯片需要达到的性价比指标是什么？

-客户的软件生态是什么样的？

竞品调研

竞品调研主要考察当前市场上比较top的芯片厂商的软硬件设计情况，同时，预测各厂商的未来技术趋势，目前大模型背景下，市场上比较top的芯片厂商如下：

-英伟达

-AMD

-谷歌

-华为

硬件架构设计

1.top厂商的芯片架构概览

nvidia gpu架构

添加图片注释，不超过 140 字（可选）

最上面图是H100的总体架构，最下面图是一个SM内部的架构图，详细可以看白皮书。

添加图片注释，不超过 140 字（可选）

tpu架构

添加图片注释，不超过 140 字（可选）

昇腾架构

添加图片注释，不超过 140 字（可选）

2.硬件架构设计需要考虑的事情

整个的芯片设计的主要部分是SoC的设计，system on chip，SoC是由许许多多的IP组成的（自己设计或者买第三方的），chip designer的任务就是将这些IO装进SoC这个大箱子，装得要多，性能要好。大概需要考虑如下事情：

-面积

面积太小，放不下那么多资源，面积太大，同比竞品竞争力差（成本高）

-功耗

功耗低，供电不足，处理跟不上，功耗高，费电（大数据中心的电费还是很可观的）

-频率

整个芯片有一定的工作频率，每个IP也有自己的工作频率，高频率干活快，低频率干活慢。

-颗粒

纳米决定能装多少东西，尺寸有多大，目前美国就是在这方面卡我们脖子。台积电已经能做3纳米了。

-存储

用hbm，还是用gddr，这两者存储大小，峰值带宽，价格差距较大，需要根据模型应用需求和性价比考虑。目前芯片其实主要是在卖存储，所以搞存储的闷声发大财（尤其是在当前大模型背景下）。

-cpu core

无论是host端cpu core的数量及并行度，还是device端cpu core（例如，华为昇腾架构内的AI cpu core）的数量及并行度，都影响任务的异构并行处理，因为有些是适合device的AI tensor或vector计算任务，有些是适合cpu的非规则计算任务（例如，图和树的遍历与检索）。

-host和device间的访问延时与访存开销

需要考虑host与device间的通信一次的latency，因为有可能需要多次互通。

需要考虑host memory与device memory的互访互联及带宽，对大模型和推荐系统（embedding table）有益，可以看看nvidia的grace Hopper+grace cpu架构：