深度学习与计算机架构和芯片设计–zhuan
芯片的算力提升是的深度学习的准确率提升了N倍, 受惠于摩尔定律
##深度学习的独特硬件
1.模型可以忍受低精度
2.大部分模型的计算都是一小部分计算的组合
3.很多为通用计算机设计的机制在深度学习这里并不需要(缓存,内存,TLB)
推理硬件
8bit整数运算足够,未来可能更低,用于偏稀疏计算
TPU v1 的核心就是一个65536的8bit乘-累加单元, 峰值吞吐量为92
比同时代cpu和gpu快15-30倍, 可以支持95%的谷歌模型
大内存支持大模型, 边缘测芯片为了降低功耗
训练硬件
大数据大模型,所以要考虑到分布式和并行化, 同时考虑单个芯片和高性能互联
TPU v2 双核,每个核支持128*128的矩阵相乘, 芯片有16GB的高带宽内存HBM
低精度数字格式
bfloat16原先是为了压缩模型来降低带宽需求而设计的,后来被用在tf中,更适合机器学习
深度学习中的计算更关注数字的动态区间,而非精度
芯片设计
硬件落地周期太久跟不上深度学习的发展速度
深度学习的硬件设计出来后才能展示出芯片的性能,所以要通过强化学习来预测结果,缩短周期,可以找到全局最优
半导体制造
用机器学习来优化计算机系统中已有的启发式规则,包括编译器,操作系统,文件系统,网络堆栈等
未来方向
Sparsely-gated mixture of experts模型 稀疏门控混合专家系统
AutoML 自动机器学习
多任务训练
三者的混合