2023年第二届HiPChips解读

The 2nd International Workshop on High Performance Chiplet and Interconnnect Architectures (HiPChips)

主题

  1. Optical and other advanced chiplet interconnect technologies
  2. Interconnect standards of coherent and non-coherent data sharing protocols (e.g. CXL)
  3. Disaggregated computing architectures powered by high speed interconnect
  4. Chiplet architectures for in-memory computing and other emerging technologies
  5. Software optimization and scheduling with fast inter-chiplet network
  6. Power evaluation and performance modeling of chiplet architectures

芯片架构议题

Challenges in AI and ML for Chiplets to address

Speaker:Dharmesh Jani (Infrastructure Partnerships/Ecosystems Lead @ Meta)

通常的人类行为场景

  1. 认知,认识世界并构建认知模型,需要大量的训练
  2. 挖掘,在各种类型的数据中寻找目标,需要推理
  3. 综合创造,创造出新的事物

当前AI应用领域及相关算法应用

在这里插入图片描述

当前DSA处理器存在算力瓶颈

内存和互联网络拖累了计算。
在这里插入图片描述

Chiplet技术需要去解决的人工智能和机器学习的挑战。该报告针对人类行为包括认知、挖掘、创造三个场景指出了DSA的运行需求,并指出了其挑战主要在加速器和内存间的缺口、软硬件的协同设计、互联网络中如何选通局部带宽以优化总体带宽

Enable Polymorphic AI Architecture via Composable Chiplet Technologies

Speaker: Weifeng Zhang (Chief Architect & VP of Software Lightelligence)


  • 通过可模组的chiplet技术构建多模态的AI架构。

A Scalable Methodology for Designing Efficient Interconnection Network of Chiplets

Speaker: Yinxiao Feng, Dong Xiang, Kaisheng Ma. (@ Tsinghua University)

当前多chiplet架构可扩展性特征

平面拓扑、长直径、有限的可扩展性
在这里插入图片描述

拓扑架构的问题

种种问题导致互联网络的性能较差,不能充分发挥chiplet架构的性能。

  1. 规模挑战:chiplet数量越多,直径越大
  2. 布线挑战:跨chiplet死锁,较差的容忍度
    在这里插入图片描述

理想的拓扑架构

  1. 能使用相同的chiplet构建不同的规模的系统级架构
  2. chiplet基于2D mesh架构
  3. 可扩展
  4. 通过自适应路由算法解决死锁问题
  5. 有效的

清华大学团队基于传统的2D mesh NoC架构提出了修改最小的解决方案:

  • 虚拟通道路由器
  • 虚拟直通
  • 每个边缘节点都有一个外部连接链路
    在这里插入图片描述

评估方法

  • 补充: radix:阶,指网络中一个点的与其他点的连接数量
    在这里插入图片描述
  • MFR
    在这里插入图片描述

几种互联拓扑架构

  1. 超立方体
    在这里插入图片描述
  2. nD-mesh
    在这里插入图片描述
  3. 蝴蝶网络
    在这里插入图片描述

延迟达Cycle精度的C++仿真器

在这里插入图片描述


  • 一种可扩展的用于设计高效chiplet互联网络的方法学。本报告定义了一个软件可定义的接口汇集方法,描述了将2D mesh NoC架构的chiplet转变成高阶network的方法,并基于MFR(Minus-first Routing)设计了一种解除死锁的自适应算法,在chiplet特定的能达到延迟的cycle精度的C++仿真器上评估了性能,结果表示了改方法学的高性能和灵活性

Building Heterogeneous Chiplets with AMBA Interconnects

Speaker: Jeff Defilippi ( Senior Director Product Management @ ARM)

当前chiplet生态处于各家为战阶段

在这里插入图片描述

NVIDIA Grace Hopper Superchip通过CHI将CPU和GPU die 进行连接

在这里插入图片描述

  1. 900 GB/s NVIDIA-CTC interconnect
  2. 使用共享页表的虚拟内存系统
  3. 系统内存能效比服务器接GPU提升了30倍

片上一致性协议总线CHI

在这里插入图片描述

新的CHI协议将支持Multi-chip

新的CHI协议正在开发,扩充的新的特征将使CHI从on-chip扩展到multi-chip,具有如下特征:

  1. 计算节点、加速器节点、内存节点的统一的一致性互联接口
  2. 将如下特征延伸到chiplet边界
  • 分布式的虚拟内存管理、中断、定时器
  • 监测和资源管理
  • 信任安全、内存保护、加密计算
    在这里插入图片描述

如图所示为IP的层次架构,协议层使用CHI协议,链路层和物理层使用UCIe或其他IP。
在这里插入图片描述


  • 使用AMBA总线构建异步chiplet架构。该报告揭示了chiplet技术应用的迫切需求,介绍了ARM的CHI总线特征,并基于原先on-chip特征的基础上扩展应用于multi-chip的属性,基于CHI的chiplet互联将推动chiplet行业向半定制平台发展

芯片封装议题

Next-generation Co-Packaged Optics for Future Disaggregated AI Systems

Speaker: Sajjad Moazeni, Assistant Professor (University of Washington, Seattle)

CPO的目标

基于AMD和Nvidia的应用情况,CPO可以实现功耗、成本、密度、线距的最优平衡。
在这里插入图片描述

使用微环调制器(micro-ring modulator, MRM)进行光通信

详细介绍了技术细节

下一代CPO结束解决方案

  1. 在先进封装中使用direct bonding替代micro-bumps
  2. PIC和EIC联合设计
  3. 架构的更新
    和内存控制器连接的CPO
    在这里插入图片描述

相关研究

H. Li et al., “A 3-D-Integrated Silicon Photonic Microring-Based 112-Gb/s PAM-4 Transmitter With Nonlinear Equalization and Thermal Control,” in IEEE Journal of Solid-State Circuits, vol. 56, no. 1, pp. 19-29, Jan. 2021, doi: 10.1109/JSSC.2020.3022851. 论文解析


  • 针对未来分离AI系统的下一代合封装光学。该报告介绍了Intel在CPO方面的工作,并详细介绍了MRM的技术细节,并提出了随着PIC和EIC的CPO集成的实现,很多新的芯片架构将被解锁,例如将PIC和HBM互联等。

Optical Network-on-Chip for Large Scale Chiplet Architectures

Speaker: Huaiyu Meng (Co-founder and CTO @ LIGHTELLIGENCE)

通过PIC将EIC进行信道互联

在这里插入图片描述

  1. chiplet间互联不在局限于相邻chiplet
  2. 在wafer级的信号衰减更小
  3. 功耗和延迟将和die间距无关

oNOC的优势

  1. 由于延迟减小,不同的拓扑架构变得可能
  2. 由于灵活的网络拓扑,工作负载在硬件上的映射更加有效
  3. 距离与MCM计算系统性能提升成近线性关系
    在这里插入图片描述

采用oNOC的第一代计算系统级封装

在这里插入图片描述
在这里插入图片描述

oNOC大规模应用的挑战

  1. chiplet生态不够成熟
  2. chiplet间标准接口
  3. 硅基光芯片的成本较高

  • 应用于大规模Chiplet架构的光互联片上网络。该报告揭示了当前基于电子通信的chiplet互联的局限性,考虑多各种优异的互联架构,可使用oNOC技术在2D的基板空间上进行3D互联(鄙人理解非物理上的3D互联,而是延迟等效意义上的互联),如此,优秀的架构将会带来工作负载上的性能提升。介绍了第一代oNOC产品,并提出了oNOC技术大规模应用的担忧。

技术生态

Building an Open Chiplet Economy

Speaker: Cliff Grossner (Ph.D. VP Market Intelligence & Innovation), Bapi Vinnakota (Ph.D., Open Compute Project)

新的chiplet开放经济生态

在这里插入图片描述
需要考虑的要素
在这里插入图片描述

OCP致力于构建开放chiplet生态的投资

在这里插入图片描述

BoW的相关案例和应用

在这里插入图片描述

标准化的商业工作流和商业关系

在这里插入图片描述

chiplet设计描述使SiP设计和构建更加自动化

chiplet经济需要:

  1. 标准化的设计模型,来确保EDA工作流程
  2. 标准化的SiP设计和集成工作流
  3. 对2.5D、3D封装的多chiplet的SiP集成方法
  4. 电气化的可读性描述应包括如下属性:
    在这里插入图片描述

实现高可操作性和第三方验证的标准化的chiplet testbench

在这里插入图片描述

标准的互联比较基准使能知情权

关键准则:

  1. 每个单元的成本
  2. 运行成本
  3. 设计影响
  4. 产品集成
  5. 封装成本

标准化逻辑互联使物理层连接可替换

主要优势:

  1. 简化,专注于die的拆分,缓解了CDR、CRC/retry设计的复杂度
  2. 低延迟,更加激进的技术,使用FEC缓解CRC的串行时序负荷
  3. 可规模化,支持不同的lane数据传输速率和划分
  4. 可便携化,接口可以兼容不同的实现方法和工艺节点
  5. 可扩展性,创造一个模块框架,允许增加新的特征、允许定制化、使能互联的可操作性

BoW技术是一个将AXI协议迁移到chiplet互联的自然而然的选择

  1. 为最大化实用性优化了标准
    • 设计者可以选择满足用户案例的操作点
    • 简化所需特征的实现方法
    • 每个逻辑单元(16 lane)都可以用于所有类型封装
    • 对通道损耗和串扰,错误率的一致性没有直接要求
    • 在chiplet层指定信号序,而不是明确的bump maps
  2. 规模化应用的关键属性
    • 成本和能效 (0.25 -0.5pJ/bit)
    • 在较宽范围 (65nm – 5nm)节点内的高性能 (2-16Gb/s/line)
    • 使用场景 (25mm reach, <1e-15 BER)
    • 正在构建中的BoW-384 (24Gb/s/line) 和 BoW-512 (32Gb/s/line)

  • 构建开放的chiplet经济。该报告是OCP组织关于chiplet生态的报告,在功耗、性能、成本、商务等不同需求下,chiplets将存在于生活的各领域中,同时为chiplet经济生态提出了包括技术和生态的关键着力点。

UCIe :An open standard for innovations at package level

chiplet互联的技术要点

包括SoC应用层的设计、数据链路层和事务层的设计、物理层的设计等
在这里插入图片描述


  • UCIe,一个在封装层级创新的开放的标准,介绍了当代推动chiplet技术发展的因素,描述了chiplet技术要解决的问题,以及UCIe优秀的技术属性。

Chiplet Ecosystem: Challenges and obstacles to overcome to reach chiplet nirvana

Speaker: Nathan Kalyanasundharam & John Wuu ( @ AMD )

AMD需要DSA来满足计算需求

  1. 不同类型的计算
  2. 来自不通供应商的不同chiplet
  3. 集成多种类型的计算、存储、IO的系统级封装
  4. 减少开发成本和上市时间
    在这里插入图片描述

chiplet生态挑战

在这里插入图片描述

AMD的chiplet生态解决方案栈

  • D2D control
    (AMD在D2D接口协议层之外增加了并列的控制栈,该控制层的作用是什么?作不同协议栈的选通吗?如果作为protocol的选通,那D2D接口本身就有低延迟、高带宽的需求,如果通过control进行选通岂不是增加了延迟,那么存在的意义又是什么?)
  • DMU
    硬件+固件(存在的作用是什么?难道是上层固件的内容,包括安全启动、复位、修复、功耗管理、热管理等?)
    在这里插入图片描述

chiplet和CPO的应用——可扩展CXL switch

在这里插入图片描述


  • chiplet生态,为实现chiplet的涅槃而需要克服的挑战和障碍。AMD介绍chiplet生态构建的挑战,并且提出了自身的chiplet软硬件栈的解决方案,并宣称持续看好chiplet。

相关链接

算力、存储高速增长 让高阶 (high-radix) 网络互连持续精进

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KGback

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值