2022年第一届HiPChips解读

KGback

已于 2024-07-15 21:40:47 修改

阅读量897

点赞数

分类专栏： # Chiplet # 会议报告文章标签： chiplet HiPChips

于 2023-09-11 22:56:44 首次发布

本文链接：https://blog.csdn.net/qq_39815222/article/details/132746257

版权

会议报告同时被 2 个专栏收录

9 篇文章

订阅专栏

Chiplet

7 篇文章

订阅专栏

High Performance Chiplet and Interconnect Architectures，2022年6月19日，第一届会议（连同第49界ISCA会议）于美国纽约举行，旨在探讨小芯片Chiplet和互联技术对未来计算架构的影响，从而推动工业和学术界加速合作、共建Chiplet生态。

此次HiPChips也是国际上以“小芯片”为主题的研讨会首次登上计算机架构顶会的舞台，因而吸引了包括Google、Meta(Facebook)、Intel、AMD、Nvidia、苏黎世联邦理工(ETH Zurich)、伊利诺伊大学(UIUC)、加州大学洛杉矶(UCLA)、佐治亚理工(Georgia Tech)和印度理工(IIT Bombay) 等领域内顶尖行业专家和学者的参与，议题也广泛覆盖了chiplet架构、芯片设计、互联标准化等最前沿的研究和进展。

第一届会议议程及slice：
HiPChips Chiplet Workshop @ ISCA Conference

主题

Chiplet-based accelerator level parallelism (ALP)
Chiplet architecture for large scale system design
Physical and logical inter-die interface design for heterogeneous architectures
Coherent and non-coherent data sharing protocols via fast chiplet interconnection
Chiplet architectures for in-memory computing and other emerging technologies
ODSA-based 3D architecture for efficient ML acceleration
Chiplet-based secure computing
Power evaluation and performance modeling of chiplet architecture
Software optimization framework with fast inter-chiplet network
Chiplet topology aware ML optimizations
Scheduling for massive heterogeneous chiplet-based processors

如何将数据在chiplets间划分，以及为了更高效的并行处理而优化数据迁移成为成功的关键。

芯片架构议题

Memory Centric Computing

系统功耗的62.7%都花在数据迁移上。
Amirali Boroumand, Saugata Ghose, Youngsok Kim, Rachata Ausavarungnirun, Eric Shiu, Rahul Thakur, Daehyun Kim, Aki Kuusela, Allan Knies, Parthasarathy Ranganathan, and Onur Mutlu, "Google Workloads for Consumer Devices: Mitigating Data Movement Bottlenecks"Proceedings of the 23rd International Conference on Architectural Support for Programming
Languages and Operating Systems (ASPLOS), Williamsburg, VA, USA, March 2018.

* Chiplets Open the World of Collaboration

Speaker: Bob Brennan (VP, Customer Solutions Engineering, Intel Foundry Services )

多种因素推动着Monolithic向chiplet发展

大芯片制造成本
不同芯片对工艺的要求不同
AI运算的带宽和供电缺口
先进工艺下芯片设计成本和产品上市速度
系统级高速IO接口的优化

单芯系统向多芯系统发展：标准接口、接口协议、软件栈

在这里插入图片描述

IO案例研究：分离的PCIe和内存

在这里插入图片描述

服务器案例研究：Multi-core uServer

在这里插入图片描述

互联网络/存储案例研究：IPU/DPU

多协议架构
在这里插入图片描述

AI案例研究：缓存推理架构

在这里插入图片描述

评
chiplet开启了世界性的合作。Intel的报告展示了其对行业内芯片架构有monolithic向chiplet发展的信心，其展示了多个邻域的应用案例，但然表示当前chiplet发展还面临一些挑战，需要生态内的各方合作解决。

Hyperscale use cases, challenges and case study for heterogenous integration

Speaker: Dharmesh Jani ( Open Ecosystem Lead, @ Meta) , Ravi Agarwal (Technical Sourcing Manager)

通常的人类行为场景

认知，认识世界并构建认知模型，需要大量的训练
挖掘，在各种类型的数据中寻找目标，需要推理
综合创造，创造出新的事物

AI应用场景的挑战

在这里插入图片描述

评
对于异构集成的超大规模芯片的使用场景、挑战和案例研究。该报告说明了AI计算面临的计算平台的困境，指出通过陷阱封装技术突破该困境。

The Road to Data Center Power Efficiency

Speaker: Tawfik Rahal-Arabi & Anshuman Mittal (@ AMD)

摩尔定律在失效但数据中心算力需求仍在增长

在这里插入图片描述

客户端和数据中心的功耗管理对比

在这里插入图片描述

通过chiplet技术可以对芯片的功耗发送和管理

chiplet技术天生的可以进行细粒度的功耗划分和管理。
如图两种场景对比，chiplet的应用可以节约25%的功耗，但如何划分cores是一个问题
在这里插入图片描述
不同的方式进行电源分布

通过一些算法对功耗进行管理

在这里插入图片描述

评
通往数据中心高功效之路。AMD从产品的功耗角度对chiplet架构的构建展开菲尼，认为chiplet可以帮助软硬件更好的划分功耗和进行功耗管理。

Chiplet-based Waferscale Computing

Speaker: Rakesh Kumar (@ University of Illinois Urbana-Champaign)

晶圆级计算的演变

以前的晶圆级芯片目标是将monolithic坐在一个晶圆上，成本较高
在这里插入图片描述

UCLA的晶圆级硅互联技术

在这里插入图片描述

晶圆级GPU架构

互联架构良率对比：
在这里插入图片描述

在这里插入图片描述

线程块和数据布局策略

在这里插入图片描述

Designing a Waferscale Processor Prototype: Challenges and Solutions

Speaker: PUNEET GUPTA (@ UCLA)

2048个chiplet的架构

在这里插入图片描述

晶圆级芯片设计的具体细节

晶圆级设计需要对芯片的电源、时钟、硅前后测试、IO die架构等方面分别考虑
在这里插入图片描述

评
设计基于chiplet的大规模系统。该报告相较于Chiplet-based Waferscale Computing报告更清晰的描述了芯片的架构，以及晶圆级设计需要解决的电源、时钟、测试等问题。

Heterogeneous Chiplet-based Architecture for In-Memory Acceleration of DNNs

Speaker：
在这里插入图片描述

大数据处理给硬件平台提出了更高的要求。

存内计算（IMC）为缓解冯诺伊曼瓶颈提供了可实现的方法。
基于crossbar的架构为深度学习网络的计算提供了很好的平台。

IMC加速器使用了一种权重值固定在片上的架构。因此IMC大芯片将因为更大的面积导致更多的功耗，因此2.5D封装的chiplet设计将是一个替代选项。
在这里插入图片描述

RRAM/SRAM的实践已经为基于chiplet的IMC架构进行了探索。

用户可以调试参数来对架构进行调整，包括映射、架构划分、IMC单元特征等。
在这里插入图片描述

工作流程

将DNN参数、架构参数输入进SIAM，SIAM进行参数与资源的映射，包括片上互联和板级互联，并构建计算平台。评估工具对整体架构进行性能、延迟等特征评估。
在这里插入图片描述

SIAM的输入包括

在这里插入图片描述
SIAM的计算架构如下：
组件颗粒可细化到具体的IMC cell，层次跨度较广。

数据流

在这里插入图片描述

大小chiplet混合的架构

DNN网络的特征：固有的非线性权重和激活分布，这些给IMC的使用率带来了消极影响，导致需要更多的硬件资源和功耗，也影响了整体系统的成本。
在这里插入图片描述

算法映射指在最大化IMC的使用率
集成较小IMC的小芯片群用于初始化或较小layer的计算，比较适合大数据迁移的场景；集成较大IMC的大芯片群用于更大更深的layer计算，比较适合小数据迁移的场景。
NoP用于将大数据传递到每个芯片群内。

Cost-Aware Exploration for Chiplet-Based Architecture with Advanced Packaging Technologies

Speaker: Tianqi Tang, Yuan Xie (@ University of California)

chiplet成本构成

在这里插入图片描述

成本建模

在这里插入图片描述

评
先进封装下的chiplet架构的成本探索。该报告对chiplet的制造成本构建了数学模型，并对同构和异构的chiplet系统进行了案例研究，chiplet在不同应用上成本各异。

Redefining Computing Architecture Boundaries with Off Package Chiplets

Speaker: Allan Cantle (@ NALLASWAY)

封装内和封装外内存配置的架构性能对比

传统的本地内存和RDMA
通过CXL互联的共享内存
通过共封装光学技术连接的共享CXL内存
通过OIF-VSR的chiplet接口连接的本地内存
共封装光学、CXL共享内存、本地内存、OIF-VSR接口互联

通过对比，可得到如下结论：

硅光互联的架构功耗更低

目标的chiplet架构

on-package架构
off-package架构

评
用封装外的chiplets重新定义计算架构边界。改报告通过几种封装内和封装外组合的架构性能和功耗对比，提出了未来目标的架构必定是on-package和off-package混合的架构。

芯片封装议题

AI & HPC system opportunity with integrated photonics chiplets

Speaker: Edi Roytman, Ajaya Durg, Thomas Liljeberg, Ling Liao, Robert Munoz (all @ Intel Corporation)

从HBM/DDR的特征到AI/HPC节点的理想系统内存

所有的计算、通信类型可直接访问
模块化、可组合的、可扩展的
共享的、可池化的
类似HBM的带宽
类似DDR的容量、延迟、ECC校验
LPDDR的功效

Intel的光计算互联解决方案

光模块集成芯片及封装示意图：
在这里插入图片描述
内存访问架构图：
直接内存访问 ----》共节点的内存 ----》共享/池化的内存和IO设备

先进的内存架构可以获得更好的性能

是否应该使用光互联技术

光互联技术在计算节点较多，功耗较大的场景需求更大。
在这里插入图片描述

评
集成光连接chiplet的AI和HPC机会。该报告强调了光连接的高带宽和大容量的内存架构可以在达到5倍性能，在同一成本下达到2-3倍的性能提升，为此需要在AI/HPC工作负载敏感性研究和光互联参考设计方面进行研究，联合产业界开发适用于XPU和光互联接口的强互操作性、可用的chiplet接口标准。

Glass Interposer Integration of Logic and Memory Chiplets: PPA and Power/Signal Integrity Benefits

Speaker：
Pruek Vanna-iampikul, Serhat Erdogan, Mohanalingam Kathaperumal, Madhavan Swaminathan, and Sung Kyu Lim（@ Georgia Institute of Technology）
Ram Gupta, Ravi Agarwal, （@ Meta）
Praveen Anmula, Kevin Reinbold,（@ Siemens）

一种非TSV的3D堆叠封装方式

在这里插入图片描述

footprint、PPA+SI/PI对比

更小的footprint。
在这里插入图片描述

评
逻辑和存储chiplet的glass中间介质层的PPA和功耗/信号完整性的优势。GLass中阶层是2.5D和3D封装的一种新的中介介质层材料，通过Glass和Silicon的性能对比，Glass可支持在3D chiplet堆叠的成本更低的解决方案，在PPA和Si/PI方面也有更好的表现。

Chiplets’ march to AMD 3D V-Cache And Beyond

Speaker：RAJA SWAMINATHAN, JOHN WUU（ @AMD Senior Fellow)
评
通往AMD 3D Vcache的chiplet之路。AMD Zen3 CPU利用小芯片扩展了L3 V-Cache，从32MB到（32MB+64MB），总体实现了15% 性能提升

芯片测试议题

Using In-Chip Monitoring and Deep Data Analytics for High Bandwidth Die-toDie Reliability

Speaker: Alex Burlak (VP Test & Analytics @proteanTecs)

异构集成面临着质量和可靠性的挑战

在这里插入图片描述

评
为高带宽的D2D可靠性进行片内检测和深度数据分析。该报告主要介绍了proteanTecs公司在lane的高分辨率检测、从产品到良率的可视化、先进的特征检测、以及覆盖率驱动的测试优化等方面的工作。

CHiplet接口协议议题

What is the right Die-to-Die Interface? A Comparison Study

Speaker: Shahab Ardalan (LMNS), Bapi Vinnikota (BRCM), Tawfik Arabi (AMD), Elad Alon (BCA)
评
一种判断D2D接口的比较研究。本报告图片多，但信息较少，初步看出可治是根据单向和双向链路的功效和延迟的分析，得出能效和延迟是很重要的结论。

OCP ODSA’s Bunch of Wire (BoW) Interface for Die to Die Applications

Speaker: Elad Alon (@ Blue Cheetah Analog Design) Bapi Vinnakota (@ Broadcom) Jayaprakash Balachandran (@ Cisco)

BoW是用于D2D并行接口的物理层标准协议

在这里插入图片描述

评
用于D2D应用场景的BoW接口。本报告相当远ODSA的BoW宣传报告，介绍了BoW在低延迟、时序设计、封装的高互操作性和灵活性、RX/TX通道信号的兼容性等方面的优势，呼吁产业界一起为BoW生态做贡献。

ODSA: Creating Open chiplet ecosystem under open compute project

Speaker: Dharmesh Jani (Open Ecosystem Lead @ Meta, Co-Chair OCP Incubation Committee)

DSA时代的来临

2018年John Hennessy 和 David Patterson预测了DSA时代的来临

ODSA的职责

OCP主要在模块级、子系统级、系统级、数据中心展开布局，2019年起将通过ODSA在模块级组件开展工作
在这里插入图片描述 ODSA将在开放的D2D接口、chiplet参考设计、参考工作流三方面工作推动chiplet市场生态的构建，进而OCP其他业务的发展。

ODSA的技术栈

在这里插入图片描述

评
ODSA，在OCP组织下构建chiplet生态。该报告介绍了OCP组织下的ODSA下属机构，目的在于构建开放的chiplet系统芯片生态，并介绍了ODSA在进行的工作，包括chiplet封装技术、接口协议技术、使用案例等工作。

High-Bandwidth Density, Energy-Efficient, Short-Reach Signaling that Enables Massively Scalable Parallelism

Speaker: John Wilson ( Nivida )

计算架构升级的目标：每watt增加的计算性能

封装外带宽的演变：
在这里插入图片描述

评
能够大规模并行标量计算的高带宽密度、能效、短距的信号输出。从工艺角度讨论了off-chip和off-package的带宽极限，对于接口PHY的设计，提出了大量数据传输场景下提高的chip-to-chip传输带宽的单端信号的输出方法，提出了在organic封装和PCB层级的方法 Ground-Referenced Signaling，在interposer层级使用Simultaneous Bidirectional Signaling；也说明了2.5D封装的chip-to-chip大带宽传输仍然存在数据传输功耗过大的挑战。

Dual-Stripline Configuration for Efficient Signal Routing in the Bunch-of-Wires Interface

Speaker：
Shekar Geedimatla, Robin James Payyappillil, Devi Sreekumar, and Shalabh Gupta Department of Electrical Engineering, IIT Bombay, Mumbai – 400076, INDIA

BoW标准可以在基板上支持高密度的信号互联

BoW的每个slice有16根信号，每根线提供16Gbps的传输带宽，一个slice最多提供256Gbps的带宽。

Dual stripline配置

在这里插入图片描述
half-pitch offset可以减少信号串扰。

Design Space for Chiplet IO

Speaker: Ken Chang, Scott Huss (@ Cadence)

chiplet IO类型分类

相对串行PAM4差分信号和并行接口先进封装，并行接口标准封装在能效和带宽密度两方面有折中的效果。
在这里插入图片描述

Cadence D2D接口Ultralink

在这里插入图片描述
6/7 bit编码尽可能达到直流平衡。

评
chiplet IO接口的设计空间。本文将目前已有的chiplet IO类型根据封装和信号编码类型分成三大类，并详细介绍了cadence的D2D接口，其6/7bit编码特性使该接口在低延迟、能效、带宽密度、低成本方面有较为平衡的优势。同时也展望了UCIe未来将可能统一chiplet接口。

软件相关开发议题

HALO: A Compiler Framework for Chiplet Architectures

研究者：Weiming Zhao, Weifeng Zhang（@ Alibaba Cloud）

软件开发面临的挑战

纵向扩展：碎片化的软件生态

不同硬件有不同供应商提供的软件栈
巨大的移植工作和长时间的产品上市时间
缺乏互操作性

横向扩展

工作负载并行化
针对chiplet系统的分布式计算系统

软件升级的目的和解决方案

目的

减少工作量
充分发挥AI的性能

纵向扩展更多种硬件
合理的安排不同chiplet的工作
横向扩展更多相同的处理器

高效且灵活

不依赖于特定的AI框架
更少的内存资源占用
更少运行时间

解决方案

统一的AI计算编程模型：开放的深度学习API（Open Deep Learning API, ODLA）
优化的编译器框架：Heterogeneity Aware Lowering & Optimization (HALO)

基于ODLA代码编译AI算法，构建工作流
优化经典的编译器
优化AI算法
支持异构设备
优化并行化和共享

HALO架构

在这里插入图片描述

HALO组件

在这里插入图片描述

使用HALO后的性能对比

在这里插入图片描述

评：
异构架构的软件编译框架。阿里云从2017年开始投入建设的震旦异构计算开放平台（HALO/ODLA），因其可裁剪可扩展的轻量级接口、极简的内存足迹、和内禀的异构并行支持，非常适宜于作为小芯片加速系统的软硬协同计算平台。

HALO为了解决不同AI计算平台、和AI算法模型不统一的问题，将各种AI模型编译成C++描述的API接口，通过该API对应的运行时库，AI模型的C++程序可以运行在不同的计算平台上。

EDA生态议题

Configurable IO chiplet Architecture

Speaker: Rishi Chugh (@ Cadence)

chiplet系统自动化引擎的参数

在这里插入图片描述

评
可配置IO chiplet架构。该报告感觉使Cadence的chiplet产品的宣传报告，cadence拥有从接口IP、性能评估等全流程工具，客户只需要关心架构层面。

The Case for a Universal Chiplet Revolution

Speaker： Rohit Mittal & Cliff Young（@ Google）
评
通用chiplet进化的案例。google的该报告提出了chiplet是未来定制化芯片的方向，但是需要打破生态的“鸡生蛋和蛋生鸡”的问题，为此google在生态建设方面做了很多工作，对业界的交流持开放态度。