Chiplet的国内外相关研究历史和现状

最新推荐文章于 2025-03-24 14:00:56 发布

TyYyyyds

最新推荐文章于 2025-03-24 14:00:56 发布

阅读量744

点赞数 25

分类专栏： Chiplet学习文章标签：硬件架构

本文链接：https://blog.csdn.net/TZYyyyyds/article/details/144828314

版权

Chiplet学习专栏收录该内容

2 篇文章

订阅专栏

一、概述

Chiplet技术最早报道于1996年IEEE会议，通过封装技术异质集成化合物半导体器件技术中。自2017年AMD采用Chiplet（小芯片、晶粒、芯粒）的EPYC服务器CPU取得成功之后，Chiplet重新获得了业界的持续关注。继AMD之后，Marvell、Intel、Nvidia、apple等多家公司也陆续展示或布局了Chiplet技术。

但并不是所有芯片都适合使用Chiplet，不少情况下单颗集成的系统芯片会更有价值。相较之下，AI芯片对于芯片的设计规模要求最高，且需整合高频宽记忆体，高速I/O、高速网络等模组。Chiplet架构一般采用3D集成方案，减小了芯片面积，扩展了空间，是对AI芯片最佳、最具经济效益的设计。

Chiplet也非常适合汽车自动驾驶芯片。由于汽车自动驾驶芯片对于算力要求非常高，芯片的面积很大，成本很高，车规级的认证周期又很长，采用Chiplet设计，不仅可以降低设计难度、提升良率、降低设计和制造成本，更为关键的是还能够提供更高的安全性和快速迭代。

高性能服务器/数据中心、自动驾驶、笔记本/台式电脑、高端智能手机等将在未来几年成为Chiplet的主要应用场景，引领该市场增长。

二、国外Chiplet历史与现状

2.1 AMD

2.1.1 EPYC（Naples）

从初代EPYC处理器所采用的Zen架构说起。Zen确立了该系列计算单元模块化的最小单位CCX（Core Complex，核芯复合体），每个CCX包括4个Zen核芯（Core），以及8 MiB共享L3 Cache，每核芯2 MiB。

AMD EPYC的模块化与NUMA之路 - 极术社区 - 连接开发者与智能计算生态

2.1.2 EPYC（zen2）

时隔两年之后，AMD推出基于Zen 2架构的第二代EPYC处理器，通过架构与制程一体优化，达到最高64核、256 MiB L3 Cache，分别是第一代EPYC的2倍和4倍，内存访问一致性和双路的扩展性也有不同程度的改善，终于获得了一众云服务提供商（CSP）的青睐。

2.2 苹果

2.2.1 采用台积电 CoWos-S 桥接工艺的 M1 Ultra 芯片

苹果 2022 年 3 月发布的 M1 Ultra 芯片采用了独特的 UltraFusion 芯片架构，借助台积电的 CoWos-S 技术，通过两枚 M1 Max 晶粒的内部互连，实现了性能的飞跃。M1 Ultra 在新架构下，晶体管数量达到了 M1 的 7 倍多，同时两颗 Max 之间的互连频宽可达 2.5TB/s。M1 Ultra 内部集成内存 128GB，包含 8 个 16 层堆叠的 HBM（高带宽内存）堆栈的内存部件，核心传输速率达 3200M，实际传输带宽超过 800GB/s。这款产品实现了 Apple 芯片与 Mac 系列电脑的又一次重大飞跃，具有里程碑意义

苹果 M1 UltraFusion 芯片互连背后的技术--台积电CoWoS-S - 知乎

2.3 Intel

2.3.1全球首款基于UCIe连接的Chiplet（小芯片）处理器——代号为Meteor Lake的Intel Core Ultra处理器

Core Ultra 代表了英特尔客户端处理器路线图的一个转折点，因为它是第一个由 Foveros 封装技术（英特尔的3D封装技术）支持的客户端Chiplet设计，还采用了 EUV 光刻技术。从设计上看，芯片内部包含了computing tile、graphics tile和SoC tile和I/O tile四个部分。其中，computing tile是基于Intel 4工艺打造，graphics tile是基于台积电的5nm打造，SoC tile则采用台积电的6nm打造，这正是Chiplet精神的体现。值得一提的是，这个芯片的Soc tile上还集成了英特尔首个NPU。该芯片的couputing tile中有一对新的核心，一个名为 Redwood Cove 的 P 核心和一个名为 Crestmont 的新 E 核心。其中，新的 P 核心是英特尔第 12 代核心 (Raptor Lake) 处理器中之前的 Golden Cove 核心的直接继承者，通过新的 Redwood Cove 核心，英特尔在芯处理器上带来了不小的 IPC 提升。

英特尔展示全球首款基于UCIe连接的Chiplet CPU_腾讯新闻

2.3.2 Granite 和 Sierra

Granite 和 Sierra 可以被认为是解构的 Meteor Lake 处理器，Granite 配备 Redwood Cove P 核心，而 Sierra 配备 Crestmont E 核心。

Chiplet设计、性能240%提升，英特尔下一代数据中心CPU设计来了-腾讯云开发者社区-腾讯云

三、国内Chiplet历史与现状

3.1 华为海思

3.1.1 Hi16xx和晟腾910

华为海思是一家中国的半导体公司，主要生产芯片和系统解决方案，它是国内最早尝试Chiplet的厂商之一。2014年，华为海思与台积电合作的64位Arm架构服务器处理器Hi16xx，采用台积电异构CoWoS 3D IC封装工艺，将16nm逻辑芯片与28nm I/O芯片集成在一起，实现了具有成本效益的系统解决方案，可以视为早期Chiplet实践。

海思因为其属性，公开消息并不多。往往是因为合作伙伴，需要展示自己的技术突破，海思才被迫营业，站台示众。这个海思1616 就是这样挂在TSMC 的网站上的。

晟腾910 的8 个chiplet 设计，融合了HBM die，逻辑部分与I/O 部分分离，两个dummy die，超大总die size 等特点。也算是业界标杆性设计。

3.1.2 基于 Chiplet 技术的 7nm 鲲鹏 920 处理器

华为推出的鲲鹏 920 是业界领先的 ARM-based 处理器，该处理器采用 7nm 制造工艺，基于 ARM 架构授权，由华为公司自主设计完成，通过优化分支预测算法、提升运算单元数量、改进内存子系统架构等一系列微架构设计，大幅提高处理器性能。典型主频下，SPECint Benchmark 评分超过 930，超出业界标杆 25%。同时，能效比优于业界标杆 30%。鲲鹏 920 以更低功耗为数据中心提供更强性能。该处理器创建了相干缓存子系统以将多核集成到单个小芯片中，同时开发了专用并行小型 IO 块，以实现二维封装解决方案的高带宽芯片间连接

3.2 芯原股份

除华为之外，国内其他诸多半导体公司也有了惊喜的进步。如芯原股份有望是业内首批推出商用Chiplet的公司，近年来一直致力于Chiplet技术和产业的推进。基于“IP芯片化，IP as a Chiplet”和“芯片平台化，Chiplet as a Platform”两大设计理念，芯原推出了基于Chiplet架构所设计的高端应用处理器平台，目前该平台12nm SoC版本已完成流片和验证，正在进行Chiplet版本的迭代。

3.3 芯动科技

在Chiplet领域已耕耘多年的芯动科技，推出的首款高性能服务器级显卡GPU“风华1号”就使用了Innolink Chiplet技术，将不同功能不同工艺制造的Chiplet进行模块化封装，成为一个异构集成芯片。Innolink是自主研发的Chiplet的标准通信协议，在摩尔定律趋近失效，先进工艺的成本高昂的市场状况下，开拓了新的技术路线，为高性能计算，5G，元宇宙，游戏，云服务等应用提供异构集成的基础连接技术。Innolink Chiplet具有自主知识产权，填补了国内的异构集成技术空白，打破了国外核心技术垄断，成功应用于国产GPU及其他高性能计算芯片，为国产高性能芯片的发展提供了一条新的道路。

2022年4月，芯动科技又率先推出国产自主研发物理层兼容UCIe标准的IP解决方案——Innolink™ Chiplet。据悉，这是国内首套跨工艺、跨封装的Chiplet（芯粒）连接解决方案，且已在先进工艺上量产验证成功。

同时，芯原Chiplet技术将助力设计自动驾驶和高性能计算解决方案

芯原股份戴伟民：Chiplet将在AIGC与智慧驾驶领域率先落地集微网消息，近两年，芯片行业的三大传统设计要素“PPA（性能、功耗与面积）”又新增了一项考量C——（Cost，成本）。不... - 雪球

3.4 寒武纪

寒武纪在2021年11月发布了其第三代云端AI芯片思元370，基于7nm制程并且是其首款基于Chiplet技术的AI芯片，在一颗芯片中封装2颗AI计算芯粒（MLU-Die），每一个MLU-Die具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口，通过MLU-Fabric保证两个MLU-Die间的高速通讯，可以通过不同MLU-Die组合规格多样化的产品，实现不同算力、内存和编解码器的组合。

寒武纪思元370采用2片相同的基于7nm 工艺的神经网络加速器芯片组合集成，实现性能翻倍。

附录：