【文献阅读01】动态可重配置数据流的 74TMACS/W CMOS-RRAM 神经突触核以及概率图模型的在线转置权重

最新推荐文章于 2022-11-02 13:30:26 发布

葡萄杨

最新推荐文章于 2022-11-02 13:30:26 发布

阅读量300

点赞数

文章标签：算法人工智能机器学习

本文链接：https://blog.csdn.net/weixin_43277020/article/details/127175531

版权

标题：A 74 TMACS/W CMOS-RRAM Neurosynaptic Core with Dynamically Reconfigurable Dataflow and In-situ Transposable Weights for Probabilistic Graphical Models

时间/来源：2020年/ISSCC

说明：个人使用，图片若侵权可联系删除

许多神经网络结构，譬如概率图模型和循环神经网络需要数据流和权重的灵活访问模式。典型的存内计算设计没有实现这样的数据流，或者用多个ADC或神经元围绕在存储阵列周围，使得操作中的消耗过多。本文描述了基于130nm工艺的 CMOS/RRAM混合的存内计算架构，对于基于RRAM存内计算架构，计算最高能耗为74 TMACS/W ，同时提供数据流的可重配置，解决此前设计中的限制。以上通过两种关键功能来实现：1）可在线访问RRAM阵列及其转置，即可高效访问神经网络权重，从而实现运行时间内可重配置的数据流；2）电压感知随机积分点火的神经元，可在相关双采样、随机电压积分以及阈值比较中被重复使用，。

图33.1.1展示了神经突触核的顶层架构，包括16×16个subcore，共享的BL，WL和SL。BL连接RRAM的顶电极，WL连接晶体管栅极，SL连接晶体管的源极。每个subcore包含存储神经网络权重的16×16个RRAM突触，以及一个积分点火神经元。在16×16的网格中的第（j，k）个subcore中的神经元连接到第（16j+k）个BL上以及第（16j+k）个SL上用于对RRAM阵列访问的在线转置。外围电路包括行上的BL和WL驱动以及列上的SL驱动，基于延迟的可调脉冲产生器（PG，pulse generator）产生读脉冲，线性反馈移位寄存器（LFSR，linear feedback shift register）支持概率图模型要求的随机采样，以及提供IO接口的256bit的BL和SL寄存器。通过SL/BL开关配置连接积分点火神经元和各自的SL和BL实现多种类型的数据流，譬如前向forward和r后向everse 矩阵向量乘。积分点火神经元的输出通过SL开关被写入SL寄存器。在推理时，脉冲加到SL上，权重在RRAM中，结果通过BL开关被积分点火神经元所采样。

图33.1.2上半部分展示了积分点火神经元的设计，包括一个单端高增益的cascode放大器，一个锁存器，在多种操作模式间重配置放大器反馈环的开关。通过相关双采样进行周期失调消除，减轻阵列间的电路偏差，并为电容耦合放大器建立直流静态工作点。在相关双采样失调补偿期间，首先经过一个自偏置阶段，通过连接放大器的输入和输出建立直流工作点Vop。同时，已知参考电压Vref被采样到电容C-sample上，并将未知的输入失调采样到C-CDS上，准备后续的消除失调。积分点火神经元支持对输入脉冲序列随时间的积分，使用多个采样积分周期支持随机采样和概率图中的累加操作。图33.1.2下半部分展示了两个采样积分周期：在采样阶段，输入电压被采样到C-sample电容，随后的积分周期将C-sample上的电荷转移到C-integ上。神经元的激活功能通过打破放大器的反馈环路，同时使得C-integ电容底部电压为Vth来实现。开环放大器相当于一个比较器，比较Vth+Vinteg与Vref的电压大小，输出结果被锁存器锁存，并通过相应的开关存储到BL/SL的寄存器中。每个神经元占据面积为1200um2，在1.8V电源下静态功耗为63nW。一个神经突触核（256和积分点火神经元和偏置）的静态功耗为17uW。能效一部分从积分点火的电压感知中获得。积分点火神经元使得RRAM阵列在MVM期间输出为高阻态，因而避免了电流感知模式下的静态电流。

图33.1.3上半部分展示了多个输入脉冲下的采样-积分线性度的特性。将C-integ设置为6倍的C-sample延展了积分点火神经元的线性范围。图33.1.3展示了积分点火阈值与1）输入脉冲数量、2）输入脉冲幅度之间的线性依赖关系。概率图模型要求空间无关、受控的伯努利PRN，两个counterpropagating的线性反馈移位寄存器可满足上述要求。线性反馈移位寄存器的输出被调制为Vref + Vn以及Vref - Vn，并通过SL加载到积分点火神经元上。多个噪声脉冲的累积使得比较器尖锐的决策点变得平滑，称为更加正弦化的函数，如图33.1.3左侧所示。图33.1.3底部展示了随机脉冲个数和积分点火正弦特性之间的关系。

本文在每个RRAM器件中使用类似文献[1]的写验证机制将以模拟量表示的权重进行编程，从而表征执行矩阵向量乘的系统性能。RRAM在其目标电导的+-2uS（500k）之间波动(编程成功率为99.4%)。图33.1.4展示了编程后立马测量的电导分布以及编程后一周的电导分布。本文使用随机输入向量来收集每个神经元在不同的典型矩阵向量乘中的输出分布来测试矩阵向量乘操作。图33.1.4的神经元输出在-1和+1之间的陡峭过渡显示了RRAM阻值随时间漂移的稳健性。

为了证明神经元的前向和后向的矩阵向量乘能力，以及空间累加和概率采样能力，本文使用限制玻尔兹曼机器（RBM，restricted boltzman machine）来重建MNIST数字图像。RMB是包括一系列全连接神经元和隐藏神经元的概率图模型。在推理中，从灰度图像中采样的二值输入被展示到可视神经元中。矩阵向量乘和Gibbs采样在可视和隐藏神经元中被重复。本文将MNIST数字图像下采样成15×15的灰度图像。使用225（15×15）个可视神经元和60个隐藏神经元实现了RBM。本文使用2行2列的4个RRAM存储权重，在水平和垂直方向上差分编码来实现INF和GEN中的正负权重。图33.1.5展示了重建的性能，与软件实现的7级量化权重相比，10个数字的均方重建误差为1.91，