Tenstorrent芯片架构浅谈

本文探讨了Tenstorrent的AI芯片架构,特别是其摒弃传统核间共享内存,采用Multicore Private Memory Model和动态执行技术。Tenstorrent芯片通过硬件优化,支持数据并行和模型并行,简化分布式训练和推理,降低开发难度。此外,其动态执行特性包括运行时数据压缩、条件执行和稀疏计算,提高了性能功耗比。尽管面临开发者生态和软件栈的挑战,Tenstorrent芯片展现出在处理稀疏计算和控制流计算场景的优势。
摘要由CSDN通过智能技术生成

1. 背景

近些年,市场上的AI芯片层出不穷,无论是初创公司还是科技巨头,都在积极推出AI芯片,从最常见的CPU、GPU到各类Processing Unit(TPU、NPU、APU、DPU等),可谓是百花齐放。究其根源,由于深度学习相关的算法、模型和应用场景均处于高速迭代发展阶段,还未完全收敛,因此对应的计算硬件底座为适配上层应用自然也需要不断更新。其中芯片公司Tenstorrent的芯片架构别具一格,本文尝试一探究竟。

Tenstorrent成立于2016年,是一家总部位于加拿大多伦多的AI芯片公司,公司成立早期业界对其关注很少,自2021年传奇芯片设计大神Jim Keller以CTO身份加入后,公司逐渐公布其独特的芯片架构设计理念,并受到业界越来越多关注。本文结合部分公开演讲和相关paper对其芯片架构进行解读。

2. 产品

Tenstorrent共设计出3款芯片,其中Jawbridge是一款小型测试芯片,Grayskull和Wormhole则是对外商用芯片,可覆盖训练和推理场景。

Products Jawbridge Grayskull Wormhole
Manufactured 2019 2020 2021
IC Process GF 14nm GF 12nm GF 12nm
Peak Performance 1TFLOPS at FP16, 4TOPS at INT8 92TFLOPS at FP16, 368TOPS at INT8 110TFLOPS at FP16, 430TOPS at INT8
Compute cores 6 120 80
SRAM 6MB total - 1MB/core 120MB total - 1MB/core 120MB total - 1.5MB/core
DRAM Capacity unknown 8GB 12GB
DRAM Bandwidth unknown 100GB/s 384GB/s
I/O Interface 1ch. LPDDR4, PCIe Gen4x4 8ch. LPDDR4, PCIe Gen4x16 16 ports of 100G Ethernet, 6ch. GDDR6, PCIe Gen4x16
Scale-out Bandwidth unknown 192GB/s for NoC 400GB/s for Ethernet
Board Power(TDP) 1.5W 65W / 75W 150W

ed8d190024818c37a59af647b043e77f.png

Wormhole芯片架构示意图(T代表Tensix core,E代表Ethernet接口、G6代表GDDR6)

以最新的Wormhole芯片为例,其主要包含:

  • 计算核心Tensix core:

    • 5个标量RISC-V CPU:用于运行时发射调度指令和数据

    • SRAM:作为private memory,用于保存本地计算结果

    • Packet Manager数据包管理器:包含Tensor形状变换、数据传输和数据路由功能

    • Packet Compute Eng

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Linux基金会AI&Data基金会

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值