TPU架构

黎明沐白

已于 2024-08-01 14:04:55 修改

阅读量830

点赞数 20

分类专栏：计算机体系结构文章标签：硬件架构架构人工智能深度学习

于 2024-08-01 13:50:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42047140/article/details/140845375

版权

最近，apple发布了自己的大模型，称为 apple foundation Model。技术博客里写明是通过谷歌的 TPU 训练的，而非英伟达的GPU。着实让TPU又火了一把，据说连带着英伟达的股价也跌了。

那么，这篇博客，回顾下谷歌的第一代TPU的相关架构。

第一代TPU的paper于17年发表在ISCA上，原文题目为：
《In-Datacenter Performance Analysis of a Tensor Processing Unit》，感兴趣的读者可以自己找来阅读一下

第一代的TPU主要是面向神经网络的推理加速，被设计成 PCIE I/O bus 上的协处理器（coprocessor）。

host端，也就是CPU，发送TPU指令到TPU上，以控制它的执行

设计目标：在TPU中运行整个推理模型，以减少与主机CPU的交互，并具有足够的灵活性，以匹配2015年及以后的NN需求

在这里插入图片描述
TPU的整体架构图如上图所示。其内部模块之间通常通过 256-byte-wide paths 连接在一起（256 * 8-bit)。

TPU的核心计算模块是 Matrix Multiply Unit（矩阵乘单元）

其由 256x256 MACs 构成，每个MAC可以对有符号或无符号整数执行 8-bit 乘加运算（也即，MAC）

16-bit 的乘积被收集到 4MiB 的 32-bit 的累加器

最低0.47元/天解锁文章

关注

20
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
TPU架构

第一代TPU架构的介绍
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。