Google的TPU

本文详细介绍了Google的TPU系列,从TPU1的脉动阵列和量化技术,到TPU2引入BF-16支持训练,再到TPU3和TPU4的硬件进化,最后提到了TPU5的最新发展。TPU通过优化硬件结构和互联方式,不断提升在AI训练和推理上的性能。同时,文章还讨论了TPU的使用,如与torch的结合以及在Colab中的体验。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这是AI芯片的算是第三章了吧,我之前写过Dojo,写过Groq

特斯拉 DOJO超级计算系统究竟是个啥?(3) (qq.com)

续写Groq (qq.com)

     我是真不愿意写TPU,因为不是很新,身边又几乎没人能用的上,估计又没什么阅读量,不过本着之前说过要写的承诺,我也就硬着头皮写了。

TPU1

图片

      看起来比Groq要复杂

       从上到下,从右往左看

  •        首先它和还是有DDR的,它推出那个年代也没HBM。

  •       然后从HBM取权重的是weight FIFO

  •        weight FIFO把权重给房MMU里进行矩阵计算,第一代MMU就支持256*256*8的加和乘计算,现在看起来还是超级low的,但是毕竟是小10年前的产品了,结算结果是16bit。

  •        Accumulators是接受计算结果的存储芯片

  •       Activation存激活的存储。

  •        24M的local SRAM当缓存使用

  •        Systolic data setup这个挺重要的,后文讲

  •        红色的control是指令控制器,负责通过PCIE把host主机里的指令传导TPU里面

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值