文献阅读(171)2022体系架构

文章目录

  • 题目:Cambricon-Q: A Hybrid Architecture for Efficient Training
  • 时间:2021
  • 会议:ISCA
  • 研究机构:中科院计算所
    本篇论文的主要贡献: 针对训练时量化的神经网络架构
  1. 训练时量化,使得训练精度几乎不降低
  2. 提出了一个加速单元完成sliced data的statistic-based量化
  3. 通过一个近存处理单元来减少权重数据的搬运

为什么训练时需要动态的量化? 因为反向传播时不同层和不同epoch时数据变化更剧烈

The main reason is that the data distribution of gradients in backward pass varies drastically across different layers and training epochs

为什么GPU不能高效的完成8bit训练时量化? 因为缺少on-the-fly statistic-based quantization单元,而且也不一定能完成高精度权重更新(有可能需要CPU的参与)


  • 题目:GPU Domain Specialization via Composable On-Package Architecture
  • 时间:2022
  • 期刊:TACO(ACM Transactions on Architecture and Code Optimization)
  • 研究机构:Nvidia

本篇论文的主要贡献:

  1. 分析了GPU的发展趋势与不同HPC和DL benchmark,认为GPU的内存带宽将DL训练和推理的主要瓶颈,同时在大多数HPC应用中未得到充分利用
  2. 提出了基于chiplet的GPU架构COPA-GPU,通过DL评估,证明大的缓存容量可以明显提升推理速度,而训练速度需要DRAM和缓存共同提升

both cache and DRAM improvements (available only through COPA designs) are necessary to significantly improve DL-training

从下图中可以看出,HPC应用对DRAM带宽的变化非常不敏感,当DRAM带宽增加到无穷大时,平均加速只有5%
在这里插入图片描述
上图显示将LLC容量从60MB翻倍至120MB可使DL训练中的片外DRAM减少53%,进一步增长到960MB可将片外带宽需求减少82%
在这里插入图片描述
下图中(I)和(II)是不合理的,因为它们都需要片外传输几十TB/s的NoC流量,(III)更合适一些
在这里插入图片描述
下图(a)表示一个基于3D封装的GPU结构,(b)在(a)基础上增加了单独的L3缓存chiplet,并通过3D封装的形式叠在计算芯片的下面;而©相比于(a)将存储控制器(Memory Controllers,MC)及HBM IO单独分离成两个chiplet,通过2.5D封装方式互连;(d)在©的基础上增加了L3缓存大小,相比于其他方式,(d)可以提供更多的L3缓冲大小以及HBM带宽。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值