【文献阅读02】基于模拟RRAM支持全并行乘累加运算的全集成78.4TOPS/W存算芯片

标题:A Fully Integrated Analog ReRAM Based 78.4TOPS/W Compute-In-Memory Chip with Fully Parallel MAC Computing

时间/来源:2020年/ISSCC。清华大学Huaqiang Wu和台湾清华大学Meng-fan Chang合作的成果

说明:个人使用,图片若侵权可联系


基于非易失存储器的存算核在处理AI应用的深度神经网络任务时展现了巨大的优势。为了克服冯诺依曼架构中数据搬移的低效与晶体管尺寸缩小所带来的成本效果下降,存内计算被提出,有望实现可并行计算乘累加的高速低功耗的系统。然而,当前研究主要基于单核,只展现了有限的计算并行度,缺少实现完整神经网络模型的全集成存算芯片。主要的挑战在于:(1)在非易失存储阵列中进行乘累加计算时存在的IR drop和瞬态错误降低了计算精度进而限制了并行度;(2)在不同阵列间的接口模块如AD/DA转换器的效率低下。为了解决这些问题,本文提出了:(1)一种符号权重2T2R(SW-2T2R)阵列,通过减小累积电流来降低IR drop;(2)精度可调的低功耗接口设计LPAR-ADC来实现系统精度和功耗之间的折中。采取这种方案,本文在有158.8kb的模拟RRAM阵列的存算芯片中实现了一种全集成的784-100-10的多层感知机模型。本芯片在MNIST数据集中实现了高识别率(94.4%),高推理速度(77us/图像)以及78.4TOPS/W的峰值功耗。CMOS电路在130nm工艺中制造。

图33.2.2展示了本文提出的存算芯片的算法、结构以及工作流程。本文实现了2层感知机模型,包含2个全连接权重阵列和三个神经网络层。芯片结构包含一个SW-2T2R阵列,一个1T1R阵列,输入输出缓存器,LPAR-ADC等等。一个差分对连接的正负权重连接到同一个输出列,与参考文献【2】【3】不同;一个x-bit的权重(1-bit符号,x-1-bit数据)存储到SW-2T2R单元。,在n个并行乘累加运行期间,n个LPAR-ADC钳位SL电压为VSL-CLP,将SL上的电流转换为数字输出,SL电流是同一列所有SW-2T2R单元电流的累积结果,每个乘累加结果评估了一个m维1bit的输入向量与x-bit的有符号权重的乘积结果。LPAR-ADC的输出被存储到寄存器中并被采样到下一个ReRAM阵列作为输入。通过改变采样时钟的频率,LPAR-ADC的频率可调。接口模块的可灵活配置是为了实现系统精度和功耗之间的折中。第二个ReRAM阵列的输出(MAX2-OUT)被计数器采样后存储到输出缓存上。如果第1级的ADC精度为N1bit,则会产生2的N1次方个脉冲;同样的,如果第二级ADC的精度被设置为N2bit,对于第1级的输出,第2级的输出生成2的N2次方个脉冲,因此,一个图像的推理时间至少持续2的(N1+N2)次方的时间,一个更高精度的ADC分辨率会导致更好的系统识别精度,然而也会消耗更多的能量和延时。

 

图33.2.3展示2T2R阵列的结构、工作时序图和真值表。在一个SW-2T2R单元中,2个ReRAM代表正负权重,在推理过程中对其施加极性相反的电压。如果VSL=V-CLP,VBLP=V-CLP - V-READ,VBLN=V-CLP+V-READ,则G-POS和G-NEG分别代表不同的权重,为正、负或0权重。SL电流描述流过正单元和负单元权重电流的差值,根据I-CELL =V-READ*W-CELL,电流与W-CELL成比例,2T2R结构通过提升存算精度从两方面降低IR drop:(a)如果G-POS = G-NEG,电流I-CELL为0;(b)通过正权重和负权重的电流在同一列可被原地消除。ReRAM精度决定了SW-2T2R单元的精度,图33.2.2的真值表中有展示。基于ReRAM的权重通过器件的中间态被定义。如果单个ReRAM器件可表示1bit(2级)或2bit(4级),SW-2T2R的权重精度是有符号的类2bit(3级)或者有符号的类3bit(7级)。根据对同一个ReRAM的片外测试,器件电导可被连续调制。然而,片上的ADC精度限制了片上ReRAM的电导最多被量化为256个状态。

 

图33.2.4展示了LPAR-ADC的结构和时序图。LPAR-ADC包含3个子模块:一个积分器,一个比较器和一个分段电容(SC-DAC,segmented-capacitor)积分器包括一个运算放大器和一个积分电容。积分器将SL钳位到V-CLP并将SL电流转换为一个模拟电压信号。SC-DAC产生一个从V-CLP到V-DC的斜坡电压,比较器被用于比较斜坡电压信号和积分电压信号。ADC的工作流程包含3个阶段:(1)PH1:通过设置RST-ineg/EN_INTEG开关开启,EN_DAC/EN_comp开关关闭来初始化ADC,在这个阶段,SL和V-RAMP保持初始电压(V-CLP);(2)PH2:采样I-SL,在这个阶段,RST_integ开关关闭,Cinteg与SL电流连接。从SL和OPA流过的电流在电容上进行积分。OUT_integ电压随后被改变,HN_comp开启给比较器预充电;(3)PH3:乘累加输出,在这个阶段,EN_integ关断来关闭SL电流读通路;与此同时,OUT_integ电压保持不变;SC-DAC开始计数并产生斜坡脉冲电压信号。比较器比较积分器的输出和SC-DAC,产生一个脉冲,如图33.2.2所示,LPAR-ADC的功耗被积分器的参考电流源和比较器所控制,ADC精度通过配置采样时钟的频率控制。值得一提的是积分和量化方法可通过对积分时段的累积电流I-SL进行平均从而滤除电流过冲和波动。量化输出使得瞬态错误最小化。

 

图33.2.5展示了包含在对MNIST数据集进行推理时的访问时间、功耗、精准度和速度。在VDD=4.2V,VREAD=0.2V,乘累加输出访问时间为51.1ns情况下,测试结果显示SW-2T2R的功耗比1T1R版本的功耗低1.9倍。所有数据均基于同一个存算芯片,但权重结构不同。此外,测试结果显示,MNIST数据集的识别精度与两级(两层网络的输出)的ADC精度有关,推理速度与第一级ADC的精度正相关,当第1级和第2级ADC的精度分别为2bit/8bit时,识别精度为92%,推理速度为77us/图像。

 

图33.2.6展示了载有存算芯片的测试系统和软件接口。测试系统包含一个FPGA主板,测试芯片主板和一个电脑主机。FPGA用于在电脑主机和测试芯片之间搬移数据和指令;784-100-10全连接的神经网络芯片展示了SW-2T2R可显著降低由SW-2T2R带来的精度损失。使用3bit有符号的权重,测试结果到达了93.4%的精度,比仿真结果低2%。本研究和此前研究的结果比较被总结在表中。本研究成果在不那么先进的技术上实现了峰值能效、MNIST数据集的识别精度、ADC分辨率和推理速度上更好的性能。

 

图33.2.7展示了芯片的显微照片、SW-2T2R单元的版图以及参数特征表。总的来说,本文在130nmCMOS工艺上实现了158.8Kb的ReRAM芯片,一个完整的多层神经网络模型首次完全集成在存算芯片中,并以77us/图像的高速实现了MNSIT数据集,实现了78.4TOPS/W的峰值能效和94.4%的测试精度。

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值