【文献阅读08】:ISSCC2023:16.6-非易失AI边缘处理器基于4Mb单级-多级ReRAM混合模式存算宏与51.4-251TOPS/W

标题:A Nonvolatile AI-Edge Processor with 4MB SLC-MLC Hybrid-Mode ReRAM Compute-in-Memory Macro and 51.4-251TOPS/W

机构:台湾清华大学/TSMC

时间:2023/ISSCC


  • 边缘设备需要提供短延时和低功耗,从而可以对事件触发的计算任务做出高精度的推理,这需要大容量的非易失存储器来存储断电时的高精度的权重数据和高bit精度的MAC结果。SRAM CIM和数字处理器功耗大延时长。存内计算IMC(in memory computing)提供了短的计算时间和高能效,但是计算效率低。近存计算NMC(near memory computing)提供了高计算效率,但延时长能效低。

  • 16.6.1展示了AI边缘处理器的现存挑战:缺少非易失CIM(nvCIM)友好的计算数据流与芯片架构;SLC(single-level-cell)和MLC(multi-level-cell)的工艺偏差,计算产率和面积开销之间的平衡;由于按word输入的稀疏机制以及每个周期统一数量的累加带来的长的计算延时和低能效,
    在这里插入图片描述

  • 本文工作包含混合模式的ReRAM存算宏。

    • 可配置电路支持NMC和IMC
    • SLC, SLC-MLC, MLC存储模式和计算产率的配置
    • 动态累加电流量化来降低IBL的波动和功耗
    • 电流电压模式的ADC来扩大感知余量和IMC的计算产率
  • CIM友好的数据流和架构

  • bitwise 的输入稀疏和位置敏感的动态累加来缩短计算时间,增加能效和计算产率。

  • 图16.2展示了数据流和处理器架构。nvCIM的使用消除了权重的SRAM BUFFER。4MB = 32 sub-bank = 32 x 128 KB = 32 x 1024 x 1024 b。可提供6种不同的模式来实现神经网络层的不同配置。
    在这里插入图片描述

  • 图16.6.3展示了权重映射机制。输入8b wordwise会基于BW-IN的值切分成8 bitwise的输入组。对于每个组,会重新安排输入流。1-1, 1-0, 0-0会被分为不同组别。
    在这里插入图片描述

  • 图16.6.4 展示了sub bank (512 行1024列?)
    在这里插入图片描述

  • 此后的部分展示了测量结果
    在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值