Google的TPU

最新推荐文章于 2024-11-25 14:13:23 发布

周博洋K

最新推荐文章于 2024-11-25 14:13:23 发布

阅读量730

点赞数 3

文章标签：人工智能机器学习深度学习分布式 transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kingsoftcloud/article/details/137599499

版权

本文详细介绍了Google的TPU系列，从TPU1的脉动阵列和量化技术，到TPU2引入BF-16支持训练，再到TPU3和TPU4的硬件进化，最后提到了TPU5的最新发展。TPU通过优化硬件结构和互联方式，不断提升在AI训练和推理上的性能。同时，文章还讨论了TPU的使用，如与torch的结合以及在Colab中的体验。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这是AI芯片的算是第三章了吧，我之前写过Dojo，写过Groq

特斯拉 DOJO超级计算系统究竟是个啥？（3） (qq.com)

续写Groq (qq.com)

我是真不愿意写TPU，因为不是很新，身边又几乎没人能用的上，估计又没什么阅读量，不过本着之前说过要写的承诺，我也就硬着头皮写了。

TPU1

看起来比Groq要复杂

从上到下，从右往左看

首先它和还是有DDR的，它推出那个年代也没HBM。
然后从HBM取权重的是weight FIFO
weight FIFO把权重给房MMU里进行矩阵计算，第一代MMU就支持256*256*8的加和乘计算，现在看起来还是超级low的，但是毕竟是小10年前的产品了，结算结果是16bit。
Accumulators是接受计算结果的存储芯片
Activation存激活的存储。
24M的local SRAM当缓存使用
Systolic data setup这个挺重要的，后文讲
红色的control是指令控制器，负责通过PCIE把host主机里的指令传导TPU里面

最低0.47元/天解锁文章

博客等级

码龄8年

136
原创

2640
点赞

2271
收藏

1844
粉丝

关注

私信

热门文章

分类专栏

Gemini 1篇

展开全部收起

上一篇：: 续写Groq

下一篇：: Microsoft Maia

最新评论

精讲（但绝对讲明白）Deepseek的新论文SPCT
好zhaodemingzi: 请问大佬，SPCT在训练的每个阶段中对应数据集是什么样子呢？这样看还是有些抽象
英伟达的GPU(3)
姝姝CCC: 这个资料是从哪里来的英伟达好像给不同shape的都做了特定的优化分块逻辑有资料吗
详解MS的GraphRAG的实现流程
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
多模态MLLM都是怎么实现的(9)-时序LLM是怎么个事儿？
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Q-star计划的更多细节
CSDN-Ada助手: 恭喜你写的第20篇博客！看到你对Q-star计划的更多细节的探究，我感到非常兴奋。接下来，我希望你可以继续深入挖掘Q-star计划的相关信息，比如它的实施步骤、影响等等。当然，这只是我的建议，希望你可以在接下来的创作中持续保持谦虚的态度，不断进步。期待你的下一篇博客！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。