【无标题】

最新推荐文章于 2024-07-08 19:18:51 发布

Aikun7777777

最新推荐文章于 2024-07-08 19:18:51 发布

阅读量975

点赞数

文章标签：深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Aikun7777777/article/details/121868694

版权

深度学习与计算机架构和芯片设计–zhuan

芯片的算力提升是的深度学习的准确率提升了N倍，受惠于摩尔定律

##深度学习的独特硬件

1.模型可以忍受低精度
2.大部分模型的计算都是一小部分计算的组合
3.很多为通用计算机设计的机制在深度学习这里并不需要（缓存，内存，TLB）

推理硬件
8bit整数运算足够，未来可能更低，用于偏稀疏计算

TPU v1 的核心就是一个65536的8bit乘-累加单元，峰值吞吐量为92
比同时代cpu和gpu快15-30倍，可以支持95%的谷歌模型

大内存支持大模型，边缘测芯片为了降低功耗

训练硬件
大数据大模型，所以要考虑到分布式和并行化，同时考虑单个芯片和高性能互联
TPU v2 双核，每个核支持128*128的矩阵相乘，芯片有16GB的高带宽内存HBM

低精度数字格式

bfloat16原先是为了压缩模型来降低带宽需求而设计的，后来被用在tf中，更适合机器学习

深度学习中的计算更关注数字的动态区间，而非精度

芯片设计
硬件落地周期太久跟不上深度学习的发展速度

深度学习的硬件设计出来后才能展示出芯片的性能，所以要通过强化学习来预测结果，缩短周期，可以找到全局最优

半导体制造
用机器学习来优化计算机系统中已有的启发式规则，包括编译器，操作系统，文件系统，网络堆栈等

未来方向
Sparsely-gated mixture of experts模型稀疏门控混合专家系统
AutoML 自动机器学习
多任务训练
三者的混合

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【无标题】

深度学习与计算机架构和芯片设计–zhuan芯片的算力提升是的深度学习的准确率提升了N倍，受惠于摩尔定律##深度学习的独特硬件1.模型可以忍受低精度2.大部分模型的计算都是一小部分计算的组合3.很多为通用计算机设计的机制在深度学习这里并不需要（缓存，内存，TLB）推理硬件8bit整数运算足够，未来可能更低，用于偏稀疏计算TPU v1 的核心就是一个65536的8bit乘-累加单元，峰值吞吐量为92比同时代cpu和gpu快15-30倍，可以支持95%的谷歌模型大内存支持大模型，边缘测
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。