【无标题】

深度学习与计算机架构和芯片设计–zhuan

芯片的算力提升是的深度学习的准确率提升了N倍, 受惠于摩尔定律

##深度学习的独特硬件

1.模型可以忍受低精度
2.大部分模型的计算都是一小部分计算的组合
3.很多为通用计算机设计的机制在深度学习这里并不需要(缓存,内存,TLB)

推理硬件
8bit整数运算足够,未来可能更低,用于偏稀疏计算

TPU v1 的核心就是一个65536的8bit乘-累加单元, 峰值吞吐量为92
比同时代cpu和gpu快15-30倍, 可以支持95%的谷歌模型

大内存支持大模型, 边缘测芯片为了降低功耗

训练硬件
大数据大模型,所以要考虑到分布式和并行化, 同时考虑单个芯片和高性能互联
TPU v2 双核,每个核支持128*128的矩阵相乘, 芯片有16GB的高带宽内存HBM

低精度数字格式

bfloat16原先是为了压缩模型来降低带宽需求而设计的,后来被用在tf中,更适合机器学习

深度学习中的计算更关注数字的动态区间,而非精度

芯片设计
硬件落地周期太久跟不上深度学习的发展速度

深度学习的硬件设计出来后才能展示出芯片的性能,所以要通过强化学习来预测结果,缩短周期,可以找到全局最优

半导体制造
用机器学习来优化计算机系统中已有的启发式规则,包括编译器,操作系统,文件系统,网络堆栈等

未来方向
Sparsely-gated mixture of experts模型 稀疏门控混合专家系统
AutoML 自动机器学习
多任务训练
三者的混合

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值