Mixed Precision Quantization for ReRAM-based DNN Inference Accelerators
基于 ReRAM 的 DNN 推理加速器的混合精度量化
一、文章要点
- 背景:ReRAM交叉阵列能高效地执行MVM操作,但ADC的高能量和面积消耗是一个主要问题。
- 问题:传统的量化流程未考虑部分和量化,这在ReRAM架构中非常重要。
- 解决方案:提出了一种混合精度量化方案,联合对每层DNN的权重、输入和部分和进行量化,并使用深度强化学习自动搜索最佳量化配置。
- 效果:该方案能显著减少推理延迟和能量消耗,且仅损失1.18%的推理精度。
ReRAM交叉阵列的工作原理
- 权重表示:权重存储在ReRAM单元中,每个单元的电导表示权重值。
- 输入信号:输入信号通过DAC转换为模拟电压,施加到交叉阵列的行上。
- 输出信号:交叉阵列的列上产生电流,代表矩阵-向量乘积的结果。
- ADC转换:输出电流通过ADC转换为数字信号。
为什么要量化?
- 减少存储需求:量化可以将权重和输入从高精度表示(如32位浮点数)转换为低精度表示(如8位整数),大大减少存储空间。
- 提高计算效率:低精度运算比高精度运算更快&#x