ISSCC 2017论文导读 Session 14:ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel DVAFS CNN Processor in 28nm

最新推荐文章于 2025-02-25 10:11:42 发布

原创最新推荐文章于 2025-02-25 10:11:42 发布 · 4k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#cnn #soc #ISSCC #深度学习芯片

异构加速/高性能计算同时被 2 个专栏收录

12 篇文章

订阅专栏

论文阅读笔记

11 篇文章

订阅专栏

介绍了一款名为ENVISION的嵌入式CNN处理器，该处理器能够在0.25到10TOPS/W的范围内调节能效，适用于始终在线的嵌入式设备。ENVISION采用了2D-SIMD架构、DVAFS技术和面向稀疏计算的设计。

ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel Dynamic-Voltage-Accuracy-Frequency-Scalable CNN Processor in 28nm FDSOI

单位：EAST-MICAS, KU Leuven（鲁汶大学）

本文是我觉得本次ISSCC2017 session 14中最好的一篇，给人的启示有很多，比如一款SOC可以在非常大的能效范围内调节；比如DL加速需要多少组成部件以及有几种数据复用的形式；多种bit位宽的乘法器资源复用，数据IO压缩；

嵌入式设备中的神经网络：从云端到终端的计算载体转移，对能效的要求提高。1-10TOPS/W的CNN计算能效是对始终在线的(Always-On)嵌入式设备运行NN的重要保证。不同计算压力下，计算量不同，因此能耗节省空间大[1]。

高精度调整乘法器电压+频率：DVAS->DVAFS。基于JSSC2016、VLSI2016的DVAS工作基础，对乘法器进行优化设计，增加实现频率的调整。DVAFS实现了对运行时所有可调整参数的降低：激活a，频率f，电压v。通过采用高位x高位、低位x低位，可以在16b阵列上同时计算两个8b乘法，对于后续的不同精度计算吞吐提升和资源利用提高起到极大的作用。

这里写图片描述

重点看一下本篇的架构设计：

在ENVISION中，数据重用分为三类：卷积重用（单一卷积核vs一张图的多图层）；图像重用（多个卷积核vs一张图的单图层）；卷积核重用（单一卷积核vs多张图像的多图层）。
这里写图片描述

总体架构如下：整个架构包含用于ReLU/MacPool/Mac计算的1D-SIMD，专用于MAC计算的2D-SIMD，用于数据和控制的RISC主控、DMA接口、DM、PM模块等。

这里写图片描述

下面几张图分别介绍了卷积重用（单一卷积核vs一张图的多图层）；图像重用（多个卷积核vs一张图的单图层）；卷积核重用（单一卷积核vs多张图像的多图层）的方法：

这里写图片描述

上面这些都是很基本的计算trick，但是在一款设计中要全部做到，很多以前的设计并没有做好。原因很多，比如在做多张的时候，如果复用一张的资源就需要2X的资源，但是本文结合了4-8-16复用一套计算单元的方法——就是在低bit的时候，还是一套资源。

这里写图片描述

几个其他特点：

C编程
16bit指令
IO的时候有huffman压缩
GRD SRAM——用于使能sparse计算，关闭sparse的乘法；

这里写图片描述

关闭sparse的乘法：

这里写图片描述

芯片性能及能效表现：由上到下分为1x16b/2x8b/4x4b/30~60% 4×3~4b。可以看到scale非常大，能效相差可达40x，电压域为0.61v~0.85v。性能表现在BBopt下可达10TOPS/W。

这里写图片描述

总结[1]：

1、面向多层场景的Always-on架构

2、高能效的CNN处理架构：基于2D-SIMD；采用DVAFS技术；面向稀疏计算的检测及IO级压缩

3、ENVISION是一款具有0.25~10TOPS/W@76GOPS能效表现的嵌入式CNN处理芯片。

参考资料

[1] https://reconfigdeeplearning.com/2017/02/09/isscc-2017-session-14-slides14-5/
[2] ENVISION: A 0.26-to-10 TOPS/W Subword-Parallel Dynamic-Voltage-Accuracy-Frequency-Scalable CNN Processor in 28nm FDSOI