Tenstorrent芯片架构浅谈

1. 背景

近些年,市场上的AI芯片层出不穷,无论是初创公司还是科技巨头,都在积极推出AI芯片,从最常见的CPU、GPU到各类Processing Unit(TPU、NPU、APU、DPU等),可谓是百花齐放。究其根源,由于深度学习相关的算法、模型和应用场景均处于高速迭代发展阶段,还未完全收敛,因此对应的计算硬件底座为适配上层应用自然也需要不断更新。其中芯片公司Tenstorrent的芯片架构别具一格,本文尝试一探究竟。

Tenstorrent成立于2016年,是一家总部位于加拿大多伦多的AI芯片公司,公司成立早期业界对其关注很少,自2021年传奇芯片设计大神Jim Keller以CTO身份加入后,公司逐渐公布其独特的芯片架构设计理念,并受到业界越来越多关注。本文结合部分公开演讲和相关paper对其芯片架构进行解读。

2. 产品

Tenstorrent共设计出3款芯片,其中Jawbridge是一款小型测试芯片,Grayskull和Wormhole则是对外商用芯片,可覆盖训练和推理场景。

Products Jawbridge Grayskull Wormhole
Manufactured 2019 2020 2021
IC Process GF 14nm GF 12nm GF 12nm
Peak Performance 1TFLOPS at FP16, 4TOPS at INT8 92TFLOPS at FP16, 368TOPS at INT8 110TFLOPS at FP16, 430TOPS at INT8
Compute cores 6 120 80
SRAM 6MB total - 1MB/core 120MB total - 1MB/core 120MB total - 1.5MB/core
DRAM Capacity unknown 8GB 12GB
DRAM Bandwidth unknown 100GB/s 384GB/s
I/O Interface 1ch. LPDDR4, PCIe Gen4x4 8ch. LPDDR4, PCIe Gen4x16 16 ports of 100G Ethernet, 6ch. GDDR6, PCIe Gen4x16
Scale-out Bandwidth unknown 192GB/s for NoC 400GB/s for Ethernet
Board Power(TDP) 1.5W 65W / 75W 150W

ed8d190024818c37a59af647b043e77f.png

Wormhole芯片架构示意图(T代表Tensix core,E代表Ethernet接口、G6代表GDDR6)

以最新的Wormhole芯片为例,其主要包含:

  • 计算核心Tensix core:

    • 5个标量RISC-V CPU:用于运行时发射调度指令和数据

    • SRAM:作为private memory,用于保存本地计算结果

    • Packet Manager数据包管理器:包含Tensor形状变换、数据传输和数据路由功能

    • Packet Compute Eng

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Linux基金会AI&Data基金会

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值