【文献阅读05】40nm 64Kb 25.56TOPS/W 2.37Mb/mm2 的二值/存算RRAM宏,密度提升4.23倍,感知动态范围提升>75%

标题:A 40nm 64kb 26.56TOPS/W 2.37Mb/mm 2 RRAM Binary/Compute-in-Memory Macro with 4.23×Improvement in Density and >75% Use of Sensing Dynamic Range
时间:2022
来源:佐治亚理工和台积电

说明:个人使用,图片若侵权可联系


  • 使用例如RRAM的新型非易失存储器技术进行的存内计算(CIM)已有一些实现的例子,证明了其作为替代传统冯诺依曼架构方案的高能效性。由于数据在片内外的移动是一个高能耗的花费,因此面积高效性在利用RRAM的的CIM的实际运用中十分重要。

  • 图16.2.1展示了所实现的RRAM宏并介绍了三种挑战:(1)如此前所介绍的,外围电路面积的消耗对于基于非易失存储器的CIM十分巨大;其一由于ADC,当BL上的多种状态需要被表示时,需要提升低感知精度,因此需要高精度的ADC。其二为写操作所需要的Level Shifter和隔离器件。为了减少ADC面积和功耗,读出电路需要最大化可获得的电压余度,用于表示输出状态。(2)RRAM宏应当支持各种应用场景,因而需要不同的操作模式(二值或乘累加),以及不同级别的精度,可在不同的RRAM工作点进行优化。(3)阵列宏应与大的集成系统保持兼容,通过集成包括各种必要的偏置,紧密的接口,可支持不同级别粒度下的低功耗要求。所实现的功耗可切换宏集成8个1-4bit的读通道,1个共享偏置和1个参考电压产生模块,读写驱动和所有的LS到0.027mm2的版图中,比类似特征和相同技术的阵列实现了小了16.2倍数。取最近发表与ISSCC上的基于RRAM的高密度CIM中的估计面积,归一化至40nm尺度前本宏实现了1.56倍提升,归一化至40nm后,实现了4.23倍的提升。

-在这里插入图片描述


  • 图16.2.2 展示了电压调制电流感知的电路拓扑结构,用以解决前两个挑战。高电压增益A0使得电路免于PVT的偏离影响,足够的调制电导A0G0使得在理想电流域的CIM操作中,RRAM作为电流源被测量。BL目标电压V_{BLTGT}可从片外灵活设置,使得对大范围的RRAM阻值兼容。对3个关键组件的失配分析,以及放大器和感知电路的几何匹配使得读通道共享参考。此宏支持6ns以下的读模式,1-4bit的低功耗精度下的的阻值漂移监测,1-4bitCIM输出以及200ns的功耗切换。
    -在这里插入图片描述

  • 图16.2.3 展示了读通道在晶体管级别的实现。BL调制通过2个晶体管组成的增益提高跟随器实现,1个晶体管实现电压增益,另一个晶体管实现电导。每个通道的偏置电流流入RRAM单元,与CIM计算模式下的I_LEAK电流相抵消(增加输出的动态范围)。由于I_BIAS流入RRAM单元,最大的测量阻值被限制为V_BLTGT/I_BIAS。为了将可用的RRAM阻值范围扩大到100K欧姆,并且允许低功耗模式下的阻值监测,偏置电路支持高偏置和低偏置之间10倍的转换。当没有WL被选中时,可忽略的电流(10nA数量级)流过二极管连接的器件使得BL保持在近调制范围。后仿真表明了任意大的线性的状态区分,一起二值状态下5.3ns的延迟。通过在比较器的输入中加入采样晶体管实现了低ADC踢回噪声,可支持共享的低功耗的参考产生。在输入端减少电容负载后,由于工作中共模反馈的寄生效应,输入共模范围最大值被减小了,额外的PMOSCAPS恢复了共模型反馈,使得仿真踢回电荷时,6.25倍减少的紧密设计得以实现。对于偶数阶的步长,参考产生器使用共质心的多晶电阻,使用两个IDAC来灵活控制起始电压和步长电压,使得灵活感知的应用得以实现。
    -在这里插入图片描述

  • 图16.2.4展示了2个电压阈中,分离的写和读的面积高效的WL驱动实现架构。需要电平移位的WL驱动来实现高压(大于1.5V)的WL写驱动,然而写速度被RRAM公式设置,至少需要100ns。较慢的写WL驱动不同于更快的WL读驱动,可在HV电压域中使用一个全解码树。使用pass-transistro逻辑和最终驱动的缓存,HV驱动只需要10个差分输出LS(如果没有解码器需要256个)。每个分离的ns级别的读驱动链融合了1个单独的HV基本。厚氧NMOS被选择用于速度和面积之间的折中。总体速度略有提高的情况下,相比于每个WL使用1个单独的LS,面积减少了5倍。带有1个LS的读WL驱动作为1个模块被使用,每个WL通过一个独热码选择信号被选通。在读过程中,写WL驱动通过power-gating和解码树(保证最终的NMOS关闭)与WL隔离,后版图的瞬态确认了读WL驱动的1ns性能和10ns的写驱动性能。
    -在这里插入图片描述

  • 图16.2.5展示了读写电路的测量性能。为了展示读电路的性能,参考的梯度电阻通过片外端口矫正,通过扫描已知值来精准测量片外电压。线性CIM读通过45-75mV的范围进行状态分离(增加1个on-state单元平均带来3.8mV的损失);使用1个阈值电压的单通晶体管迭代地编程二值单元,证明了ADC75%的动态范围被使用。由于读电路和偏置电路中的高开环增益,对一次编程(无读回和迭代)单元的二值读出展示了对阻值漂移和电压移位的稳定性。读电路支持在有限的阻值漂移分离中的宽电压下的状态分离,一次性SET,RESET和FORM写电压为1.7V,2.6V和3.1V,二值读出时是成功的。
    在这里插入图片描述

  • 图16.2.6展示了面积有效性,测量能效和与其他工作的比较。9个WL 的1bit×1bit 乘累加操作展示了26.56/5.63 TPS/W的峰值和平均能效,在0.83V 的VDD和64MHz下实现。峰值能效对偏置和漏功耗十分敏感,并且展示了最坏效率下的最坏情况200uW的图。并与此前工作相比,平均能效提升了36%(4.15TOPS/W),校正的仿真展示了读偏置单元消耗了唱过80%的功耗。分级的上电和下电功能在仿真中被确认。面积优先的基于RRAM的CIM宏实现了2.37Mb/mm2,比此前带有小电容的子阵列的22nm的设计实现了56%的提升。与40nm结点或更高结点的工作相比,有效密度为12.5~16.2倍。这是由于HV 的WL编码和大于45mV的紧密的读电路。由于2个晶体管和带偏置的读电路,读出电路代表了2.8%的总面积(阵列面积的9.6%),与偏置RRAM单元相比没有额外的能量消耗(除开每个宏模块的单个偏置)。
    在这里插入图片描述

芯片显微图和芯片特性在图16.2.7中展示。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值