文章目录
- 题目:Cambricon-Q: A Hybrid Architecture for Efficient Training
- 时间:2021
- 会议:ISCA
- 研究机构:中科院计算所
本篇论文的主要贡献: 针对训练时量化的神经网络架构
- 训练时量化,使得训练精度几乎不降低
- 提出了一个加速单元完成sliced data的statistic-based量化
- 通过一个近存处理单元来减少权重数据的搬运
为什么训练时需要动态的量化? 因为反向传播时不同层和不同epoch时数据变化更剧烈
The main reason is that the data distribution of gradients in backward pass varies drastically across different layers and training epochs
为什么GPU不能高效的完成8bit训练时量化? 因为缺少on-the-fly statistic-based quantization单元,而且也不一定能完成高精度权重更新(有可能需要CPU的参与)
- 题目:GPU Domain Specialization via Composable On-Package Architecture
- 时间:2022
- 期刊:TACO(ACM Transactions on Architecture and Code Optimization)
- 研究机构:Nvidia
本篇论文的主要贡献:
- 分析了GPU的发展趋势与不同HPC和DL benchmark,认为GPU的内存带宽将DL训练和推理的主要瓶颈,同时在大多数HPC应用中未得到充分利用
- 提出了基于chiplet的GPU架构COPA-GPU,通过DL评估,证明大的缓存容量可以明显提升推理速度,而训练速度需要DRAM和缓存共同提升
both cache and DRAM improvements (available only through COPA designs) are necessary to significantly improve DL-training
从下图中可以看出,HPC应用对DRAM带宽的变化非常不敏感,当DRAM带宽增加到无穷大时,平均加速只有5%
上图显示将LLC容量从60MB翻倍至120MB可使DL训练中的片外DRAM减少53%,进一步增长到960MB可将片外带宽需求减少82%
下图中(I)和(II)是不合理的,因为它们都需要片外传输几十TB/s的NoC流量,(III)更合适一些
下图(a)表示一个基于3D封装的GPU结构,(b)在(a)基础上增加了单独的L3缓存chiplet,并通过3D封装的形式叠在计算芯片的下面;而©相比于(a)将存储控制器(Memory Controllers,MC)及HBM IO单独分离成两个chiplet,通过2.5D封装方式互连;(d)在©的基础上增加了L3缓存大小,相比于其他方式,(d)可以提供更多的L3缓冲大小以及HBM带宽。