AI芯片学习小结2-DaDianNao
文章:DaDianNao: A Machine-Learning Supercomputer
发表时间:2014
本文基于DianNao的设计并对其进行了改进。下图为DianNao的架构。DianNao中主要有两个设计缺陷:
(1)存储器的带宽问题。由于需要传输大量的参数(各层特征图以及滤波器的值 ),存储器NFU之间需要有很高的带宽需求。
(2)由于存储器在片外,因此获取数据时的能耗较大。
基于以上问题,本文提出了以下几点优化目标:
- 设计一种架构,可以使得大量的突触值(即神经参数)被储存在邻近的NFC中的神经元中,以减少数据移动带来的时间及能量开销。
- 设计一种非对称的架构,其中每个节点占用的空间都偏重于存储,而不是计算。
- 由于卷积参数数量巨大,因此考虑将其固定在存储器中,只传输特征图中的数值。
- 将本地储存器分解成多个tile,以此来缓解带宽压力。
由于SRAM的存储密度较低,只适合一些小量数据的高速缓存,而神经网络网络参数众多,因此在DaDianNao中SB、NBin以及NBout都换成了eDRAM;但与此同时,DRAM