Look-Up Table based Energy Efficient Processing in Cache Support for Neural Network Acceleration
这篇文章主要讲的是在CPU的SRAM上运用PIM进行加速,基于的是查表技术。
SRAM的组织方式是一个CPU对应一个SRAM切片,一个切片中有4个体,一个体中有10个子体,一个子体中有8个子阵列,一个子阵列又能分为4个子阵列分区,如下所示:
整体的设计如下所示,在SRAM中分出一些地方存查找表条目,同时存储CB(configure block),使用BCE(bFree compute engine),来运行PIM指令。
下图(a)为一个原始的设计,将一个子阵列子分区的256列中的两列预留给查找表条目,但是这种设计不够省电。于是本文提出了设计(b),即添加一个预充电控制器,根据lut_en选择预充电部分,若为0即充上面的254行,为1即充下面的2行。然后两种的延迟以及能耗对比如©,看起来提升了很多。