这是AI芯片的算是第三章了吧,我之前写过Dojo,写过Groq
特斯拉 DOJO超级计算系统究竟是个啥?(3) (qq.com)
我是真不愿意写TPU,因为不是很新,身边又几乎没人能用的上,估计又没什么阅读量,不过本着之前说过要写的承诺,我也就硬着头皮写了。
TPU1
看起来比Groq要复杂
从上到下,从右往左看
-
首先它和还是有DDR的,它推出那个年代也没HBM。
-
然后从HBM取权重的是weight FIFO
-
weight FIFO把权重给房MMU里进行矩阵计算,第一代MMU就支持256*256*8的加和乘计算,现在看起来还是超级low的,但是毕竟是小10年前的产品了,结算结果是16bit。
-
Accumulators是接受计算结果的存储芯片
-
Activation存激活的存储。
-
24M的local SRAM当缓存使用
-
Systolic data setup这个挺重要的,后文讲
-
红色的control是指令控制器,负责通过PCIE把host主机里的指令传导TPU里面