1. 背景
近些年,市场上的AI芯片层出不穷,无论是初创公司还是科技巨头,都在积极推出AI芯片,从最常见的CPU、GPU到各类Processing Unit(TPU、NPU、APU、DPU等),可谓是百花齐放。究其根源,由于深度学习相关的算法、模型和应用场景均处于高速迭代发展阶段,还未完全收敛,因此对应的计算硬件底座为适配上层应用自然也需要不断更新。其中芯片公司Tenstorrent的芯片架构别具一格,本文尝试一探究竟。
Tenstorrent成立于2016年,是一家总部位于加拿大多伦多的AI芯片公司,公司成立早期业界对其关注很少,自2021年传奇芯片设计大神Jim Keller以CTO身份加入后,公司逐渐公布其独特的芯片架构设计理念,并受到业界越来越多关注。本文结合部分公开演讲和相关paper对其芯片架构进行解读。
2. 产品
Tenstorrent共设计出3款芯片,其中Jawbridge是一款小型测试芯片,Grayskull和Wormhole则是对外商用芯片,可覆盖训练和推理场景。
Products | Jawbridge | Grayskull | Wormhole |
---|---|---|---|
Manufactured | 2019 | 2020 | 2021 |
IC Process | GF 14nm | GF 12nm | GF 12nm |
Peak Performance | 1TFLOPS at FP16, 4TOPS at INT8 | 92TFLOPS at FP16, 368TOPS at INT8 | 110TFLOPS at FP16, 430TOPS at INT8 |
Compute cores | 6 | 120 | 80 |
SRAM | 6MB total - 1MB/core | 120MB total - 1MB/core | 120MB total - 1.5MB/core |
DRAM Capacity | unknown | 8GB | 12GB |
DRAM Bandwidth | unknown | 100GB/s | 384GB/s |
I/O Interface | 1ch. LPDDR4, PCIe Gen4x4 | 8ch. LPDDR4, PCIe Gen4x16 | 16 ports of 100G Ethernet, 6ch. GDDR6, PCIe Gen4x16 |
Scale-out Bandwidth | unknown | 192GB/s for NoC | 400GB/s for Ethernet |
Board Power(TDP) | 1.5W | 65W / 75W | 150W |
以最新的Wormhole芯片为例,其主要包含:
计算核心Tensix core:
5个标量RISC-V CPU:用于运行时发射调度指令和数据
SRAM:作为private memory,用于保存本地计算结果
Packet Manager数据包管理器:包含Tensor形状变换、数据传输和数据路由功能
Packet Compute Eng