【文献阅读05】40nm 64Kb 25.56TOPS/W 2.37Mb/mm2 的二值/存算RRAM宏，密度提升4.23倍，感知动态范围提升＞75%-CSDN博客

本文链接：https://blog.csdn.net/weixin_43277020/article/details/127589789

说明：个人使用，图片若侵权可联系

使用例如RRAM的新型非易失存储器技术进行的存内计算（CIM）已有一些实现的例子，证明了其作为替代传统冯诺依曼架构方案的高能效性。由于数据在片内外的移动是一个高能耗的花费，因此面积高效性在利用RRAM的的CIM的实际运用中十分重要。

图16.2.1展示了所实现的RRAM宏并介绍了三种挑战：（1）如此前所介绍的，外围电路面积的消耗对于基于非易失存储器的CIM十分巨大；其一由于ADC，当BL上的多种状态需要被表示时，需要提升低感知精度，因此需要高精度的ADC。其二为写操作所需要的Level Shifter和隔离器件。为了减少ADC面积和功耗，读出电路需要最大化可获得的电压余度，用于表示输出状态。（2）RRAM宏应当支持各种应用场景，因而需要不同的操作模式（二值或乘累加），以及不同级别的精度，可在不同的RRAM工作点进行优化。（3）阵列宏应与大的集成系统保持兼容，通过集成包括各种必要的偏置，紧密的接口，可支持不同级别粒度下的低功耗要求。所实现的功耗可切换宏集成8个1-4bit的读通道，1个共享偏置和1个参考电压产生模块，读写驱动和所有的LS到0.027mm2的版图中，比类似特征和相同技术的阵列实现了小了16.2倍数。取最近发表与ISSCC上的基于RRAM的高密度CIM中的估计面积，归一化至40nm尺度前本宏实现了1.56倍提升，归一化至40nm后，实现了4.23倍的提升。

- 在这里插入图片描述

图16.2.2 展示了电压调制电流感知的电路拓扑结构，用以解决前两个挑战。高电压增益A0使得电路免于PVT的偏离影响，足够的调制电导A0G0使得在理想电流域的CIM操作中，RRAM作为电流源被测量。BL目标电压V_{BLTGT}可从片外灵活设置，使得对大范围的RRAM阻值兼容。对3个关键组件的失配分析，以及放大器和感知电路的几何匹配使得读通道共享参考。此宏支持6ns以下的读模式，1-4bit的低功耗精度下的的阻值漂移监测，1-4bitCIM输出以及200ns的功耗切换。
-

图16.2.3 展示了读通道在晶体管级别的实现。BL调制通过2个晶体管组成的增益提高跟随器实现，1个晶体管实现电压增益，另一个晶体管实现电导。每个通道的偏置电流流入RRAM单元，与CIM计算模式下的I_LEAK电流相抵消（增加输出的动态范围）。由于I_BIAS流入RRAM单元，最大的测量阻值被限制为V_BLTGT/I_BIAS。为了将可用的RRAM阻值范围扩大到100K欧姆，并且允许低功耗模式下的阻值监测，偏置电路支持高偏置和低偏置之间10倍的转换。当没有WL被选中时，可忽略的电流（10nA数量级）流过二极管连接的器件使得BL保持在近调制范围。后仿真表明了任意大的线性的状态区分，一起二值状态下5.3ns的延迟。通过在比较器的输入中加入采样晶体管实现了低ADC踢回噪声，可支持共享的低功耗的参考产生。在输入端减少电容负载后，由于工作中共模反馈的寄生效应，输入共模范围最大值被减小了，额外的PMOSCAPS恢复了共模型反馈，使得仿真踢回电荷时，6.25倍减少的紧密设计得以实现。对于偶数阶的步长，参考产生器使用共质心的多晶电阻，使用两个IDAC来灵活控制起始电压和步长电压，使得灵活感知的应用得以实现。
-

图16.2.4展示了2个电压阈中，分离的写和读的面积高效的WL驱动实现架构。需要电平移位的WL驱动来实现高压（大于1.5V）的WL写驱动，然而写速度被RRAM公式设置，至少需要100ns。较慢的写WL驱动不同于更快的WL读驱动，可在HV电压域中使用一个全解码树。使用pass-transistro逻辑和最终驱动的缓存，HV驱动只需要10个差分输出LS（如果没有解码器需要256个）。每个分离的ns级别的读驱动链融合了1个单独的HV基本。厚氧NMOS被选择用于速度和面积之间的折中。总体速度略有提高的情况下，相比于每个WL使用1个单独的LS，面积减少了5倍。带有1个LS的读WL驱动作为1个模块被使用，每个WL通过一个独热码选择信号被选通。在读过程中，写WL驱动通过power-gating和解码树（保证最终的NMOS关闭）与WL隔离，后版图的瞬态确认了读WL驱动的_1ns性能和10ns的写驱动性能。
-

图16.2.5展示了读写电路的测量性能。为了展示读电路的性能，参考的梯度电阻通过片外端口矫正，通过扫描已知值来精准测量片外电压。线性CIM读通过45-75mV的范围进行状态分离（增加1个on-state单元平均带来3.8mV的损失）；使用1个阈值电压的单通晶体管迭代地编程二值单元，证明了ADC75%的动态范围被使用。由于读电路和偏置电路中的高开环增益，对一次编程（无读回和迭代）单元的二值读出展示了对阻值漂移和电压移位的稳定性。读电路支持在有限的阻值漂移分离中的宽电压下的状态分离，一次性SET，RESET和FORM写电压为1.7V，2.6V和3.1V，二值读出时是成功的。

图16.2.6展示了面积有效性，测量能效和与其他工作的比较。9个WL 的1bit×1bit 乘累加操作展示了26.56/5.63 TPS/W的峰值和平均能效，在0.83V 的VDD和64MHz下实现。峰值能效对偏置和漏功耗十分敏感，并且展示了最坏效率下的最坏情况200uW的图。并与此前工作相比，平均能效提升了36%（4.15TOPS/W），校正的仿真展示了读偏置单元消耗了唱过80%的功耗。分级的上电和下电功能在仿真中被确认。面积优先的基于RRAM的CIM宏实现了2.37Mb/mm2，比此前带有小电容的子阵列的22nm的设计实现了56%的提升。与40nm结点或更高结点的工作相比，有效密度为12.5~16.2倍。这是由于HV 的WL编码和大于45mV的紧密的读电路。由于2个晶体管和带偏置的读电路，读出电路代表了2.8%的总面积（阵列面积的9.6%），与偏置RRAM单元相比没有额外的能量消耗（除开每个宏模块的单个偏置）。