2023年第二届HiPChips解读

KGback

已于 2023-10-10 22:25:33 修改

阅读量512

点赞数 1

分类专栏： # Chiplet # 会议报告文章标签： chiplet 架构

于 2023-09-26 17:02:44 首次发布

本文链接：https://blog.csdn.net/qq_39815222/article/details/132895285

版权

会议报告同时被 2 个专栏收录

9 篇文章

订阅专栏

Chiplet

7 篇文章

订阅专栏

The 2nd International Workshop on High Performance Chiplet and Interconnnect Architectures (HiPChips)

主题

Optical and other advanced chiplet interconnect technologies
Interconnect standards of coherent and non-coherent data sharing protocols (e.g. CXL)
Disaggregated computing architectures powered by high speed interconnect
Chiplet architectures for in-memory computing and other emerging technologies
Software optimization and scheduling with fast inter-chiplet network
Power evaluation and performance modeling of chiplet architectures

芯片架构议题

Challenges in AI and ML for Chiplets to address

Speaker：Dharmesh Jani (Infrastructure Partnerships/Ecosystems Lead @ Meta）

通常的人类行为场景

认知，认识世界并构建认知模型，需要大量的训练
挖掘，在各种类型的数据中寻找目标，需要推理
综合创造，创造出新的事物

当前AI应用领域及相关算法应用

在这里插入图片描述

当前DSA处理器存在算力瓶颈

内存和互联网络拖累了计算。
在这里插入图片描述

Chiplet技术需要去解决的人工智能和机器学习的挑战。该报告针对人类行为包括认知、挖掘、创造三个场景指出了DSA的运行需求，并指出了其挑战主要在加速器和内存间的缺口、软硬件的协同设计、互联网络中如何选通局部带宽以优化总体带宽

Enable Polymorphic AI Architecture via Composable Chiplet Technologies

Speaker: Weifeng Zhang (Chief Architect & VP of Software Lightelligence)

评
通过可模组的chiplet技术构建多模态的AI架构。

A Scalable Methodology for Designing Efficient Interconnection Network of Chiplets

Speaker: Yinxiao Feng, Dong Xiang, Kaisheng Ma. (@ Tsinghua University)

当前多chiplet架构可扩展性特征

平面拓扑、长直径、有限的可扩展性
在这里插入图片描述

拓扑架构的问题

种种问题导致互联网络的性能较差，不能充分发挥chiplet架构的性能。

规模挑战：chiplet数量越多，直径越大
布线挑战：跨chiplet死锁，较差的容忍度

理想的拓扑架构

能使用相同的chiplet构建不同的规模的系统级架构
chiplet基于2D mesh架构
可扩展
通过自适应路由算法解决死锁问题
有效的

清华大学团队基于传统的2D mesh NoC架构提出了修改最小的解决方案：

虚拟通道路由器
虚拟直通
每个边缘节点都有一个外部连接链路

评估方法

补充： radix：阶，指网络中一个点的与其他点的连接数量
MFR

几种互联拓扑架构

超立方体
nD-mesh
蝴蝶网络

延迟达Cycle精度的C++仿真器

在这里插入图片描述

评
一种可扩展的用于设计高效chiplet互联网络的方法学。本报告定义了一个软件可定义的接口汇集方法，描述了将2D mesh NoC架构的chiplet转变成高阶network的方法，并基于MFR（Minus-first Routing）设计了一种解除死锁的自适应算法，在chiplet特定的能达到延迟的cycle精度的C++仿真器上评估了性能，结果表示了改方法学的高性能和灵活性

Building Heterogeneous Chiplets with AMBA Interconnects

Speaker: Jeff Defilippi ( Senior Director Product Management @ ARM)

当前chiplet生态处于各家为战阶段

在这里插入图片描述

NVIDIA Grace Hopper Superchip通过CHI将CPU和GPU die 进行连接

在这里插入图片描述

900 GB/s NVIDIA-CTC interconnect
使用共享页表的虚拟内存系统
系统内存能效比服务器接GPU提升了30倍

片上一致性协议总线CHI

在这里插入图片描述

新的CHI协议将支持Multi-chip

新的CHI协议正在开发，扩充的新的特征将使CHI从on-chip扩展到multi-chip，具有如下特征：

计算节点、加速器节点、内存节点的统一的一致性互联接口
将如下特征延伸到chiplet边界

分布式的虚拟内存管理、中断、定时器
监测和资源管理
信任安全、内存保护、加密计算

如图所示为IP的层次架构，协议层使用CHI协议，链路层和物理层使用UCIe或其他IP。
在这里插入图片描述

评
使用AMBA总线构建异步chiplet架构。该报告揭示了chiplet技术应用的迫切需求，介绍了ARM的CHI总线特征，并基于原先on-chip特征的基础上扩展应用于multi-chip的属性，基于CHI的chiplet互联将推动chiplet行业向半定制平台发展

芯片封装议题

Next-generation Co-Packaged Optics for Future Disaggregated AI Systems

Speaker: Sajjad Moazeni, Assistant Professor (University of Washington, Seattle)

CPO的目标

基于AMD和Nvidia的应用情况，CPO可以实现功耗、成本、密度、线距的最优平衡。
在这里插入图片描述

使用微环调制器（micro-ring modulator, MRM）进行光通信

详细介绍了技术细节

下一代CPO结束解决方案

在先进封装中使用direct bonding替代micro-bumps
PIC和EIC联合设计
架构的更新
和内存控制器连接的CPO

Optical Network-on-Chip for Large Scale Chiplet Architectures

Speaker: Huaiyu Meng (Co-founder and CTO @ LIGHTELLIGENCE)

通过PIC将EIC进行信道互联

在这里插入图片描述

chiplet间互联不在局限于相邻chiplet
在wafer级的信号衰减更小
功耗和延迟将和die间距无关

oNOC的优势

由于延迟减小，不同的拓扑架构变得可能
由于灵活的网络拓扑，工作负载在硬件上的映射更加有效
距离与MCM计算系统性能提升成近线性关系

采用oNOC的第一代计算系统级封装

在这里插入图片描述

oNOC大规模应用的挑战

chiplet生态不够成熟
chiplet间标准接口
硅基光芯片的成本较高

评
应用于大规模Chiplet架构的光互联片上网络。该报告揭示了当前基于电子通信的chiplet互联的局限性，考虑多各种优异的互联架构，可使用oNOC技术在2D的基板空间上进行3D互联（鄙人理解非物理上的3D互联，而是延迟等效意义上的互联），如此，优秀的架构将会带来工作负载上的性能提升。介绍了第一代oNOC产品，并提出了oNOC技术大规模应用的担忧。

技术生态

Building an Open Chiplet Economy

Speaker: Cliff Grossner (Ph.D. VP Market Intelligence & Innovation), Bapi Vinnakota (Ph.D., Open Compute Project)

新的chiplet开放经济生态

在这里插入图片描述
需要考虑的要素

OCP致力于构建开放chiplet生态的投资

在这里插入图片描述

BoW的相关案例和应用

在这里插入图片描述

标准化的商业工作流和商业关系

在这里插入图片描述

chiplet设计描述使SiP设计和构建更加自动化

chiplet经济需要：

标准化的设计模型，来确保EDA工作流程
标准化的SiP设计和集成工作流
对2.5D、3D封装的多chiplet的SiP集成方法
电气化的可读性描述应包括如下属性：

实现高可操作性和第三方验证的标准化的chiplet testbench

在这里插入图片描述

标准的互联比较基准使能知情权

关键准则：

每个单元的成本
运行成本
设计影响
产品集成
封装成本

标准化逻辑互联使物理层连接可替换

主要优势：

简化，专注于die的拆分，缓解了CDR、CRC/retry设计的复杂度
低延迟，更加激进的技术，使用FEC缓解CRC的串行时序负荷
可规模化，支持不同的lane数据传输速率和划分
可便携化，接口可以兼容不同的实现方法和工艺节点
可扩展性，创造一个模块框架，允许增加新的特征、允许定制化、使能互联的可操作性

BoW技术是一个将AXI协议迁移到chiplet互联的自然而然的选择

为最大化实用性优化了标准
- 设计者可以选择满足用户案例的操作点
- 简化所需特征的实现方法
- 每个逻辑单元（16 lane）都可以用于所有类型封装
- 对通道损耗和串扰，错误率的一致性没有直接要求
- 在chiplet层指定信号序，而不是明确的bump maps
规模化应用的关键属性
- 成本和能效 (0.25 -0.5pJ/bit)
- 在较宽范围 (65nm – 5nm)节点内的高性能 (2-16Gb/s/line)
- 使用场景 (25mm reach, <1e-15 BER)
- 正在构建中的BoW-384 (24Gb/s/line) 和 BoW-512 (32Gb/s/line)

评
构建开放的chiplet经济。该报告是OCP组织关于chiplet生态的报告，在功耗、性能、成本、商务等不同需求下，chiplets将存在于生活的各领域中，同时为chiplet经济生态提出了包括技术和生态的关键着力点。

UCIe ：An open standard for innovations at package level

chiplet互联的技术要点

包括SoC应用层的设计、数据链路层和事务层的设计、物理层的设计等
在这里插入图片描述

评
UCIe，一个在封装层级创新的开放的标准，介绍了当代推动chiplet技术发展的因素，描述了chiplet技术要解决的问题，以及UCIe优秀的技术属性。

Chiplet Ecosystem: Challenges and obstacles to overcome to reach chiplet nirvana

Speaker: Nathan Kalyanasundharam & John Wuu ( @ AMD )

AMD需要DSA来满足计算需求

不同类型的计算
来自不通供应商的不同chiplet
集成多种类型的计算、存储、IO的系统级封装
减少开发成本和上市时间

chiplet生态挑战

在这里插入图片描述

AMD的chiplet生态解决方案栈

D2D control
（AMD在D2D接口协议层之外增加了并列的控制栈，该控制层的作用是什么？作不同协议栈的选通吗？如果作为protocol的选通，那D2D接口本身就有低延迟、高带宽的需求，如果通过control进行选通岂不是增加了延迟，那么存在的意义又是什么？）
DMU
硬件+固件（存在的作用是什么？难道是上层固件的内容，包括安全启动、复位、修复、功耗管理、热管理等？）