文献阅读(02)Reconfigurable Architecture for NeuralApproximation in Multimedia Computing

作者:Fengbin Tu, Shou yi Yin,Peng Ou yang, Lei bo Liu, ShaojunWei     IEEE    2019

目录

1、缩写&引用

2、创新点&优化部分

创新点:

优化部分:

3、文章主题结构内容

文章摘要

MLP

“四个层面”进行优化

General-purpose neural approximation(通用神经近似模型)


1、缩写&引用

MLPs:multilayer perceptrons 多层感知器网络

MLP:Multilayer Perceptron 多层感知器

RNA:reconfigurable neural architecture 可重构神经网络

Dennard scaling:(登纳德缩放比例定律)晶体管面积的缩小使得其所消耗的电压以及电流会以差不多相同的比例缩小。

CE: Computational Extension计算扩展

NE:    Neural Extension 神经元延申

FP: Full Paralleling 神经元与pe并行计算

FCL :  the first computation layer 第一计算层

2、创新点&优化部分

创新点:

•We propose three computational patterns that transform MLP layers to deal with the Mismatch problem.
•We propose a scheduling framework to choose the best pattern for each layer, based on an accurate performance model that considers both data loading latency and limited hardware resources.
•We propose a reconfigurable neural architecture (RNA) to support the hybrid strategy given by the scheduling framework. Higher performance and lower energy are achieved with little quality loss.

1.提出三种计算模式来解决神经元(mlp)与硬件资源的匹配问题。

2.提出一种调度框架,可以在考虑数据延迟以及有限硬件资源的基础上来为每层选出一个最佳模式。

3.用RNA来支持调度框架选出的混合策略问题。

优化部分:

传统的神经元到硬件资源的映射都选择的是多路复用,也就是直接将神经元直接映射到硬件资源中,这会导致神经元与硬件资源不匹配的问题。

神经元与硬件资源的匹配问题主要可以分为三类:

•Match(Neurons≤Resources): The current layer can be entirely mapped to the accelerator, and the majority of resources are utilized.
•Overload(Neurons>Resources): The layer’s neuron number exceeds the hardware capacity.
•Underload(Neurons<<Resources): The neurons are much fewer than available resources.

(1)匹配(神经元≤硬件资源):当前层可以完全映射到加速器,并且可以利用大部分资源。

(2)过载(神经元>硬件资源):每层的神经元远远超过硬件资源。这会导致并不是每一个神经元都可以映射到硬件资源上,神经元会自己产生迭代,从而影响性能。

(3)欠载(神经元<<硬件资源):神经元远远小于硬件资源,会导致硬件资源不能被充分利用,从而影响性能。

3、文章主题结构内容

文章摘要

文章提出了一种可调度框架,将MLP映射到有限的硬件资源中。该框架是在RNA的支持下调度MLP的不同的拓扑计算模式。

MLP

Dennard scaling 限制了处理器的效率,可通过增加核心处理器来提高效率,但这会导致很多处理器都没有被充分利用。使用神经网络可以解决这一问题。MLP是一种前馈神经网络,理论上是可以逼近任何函数的。下图是MLP网络的神经结构图。

 本文提出三个创新点来解决神经元与硬件资源不匹配的问题并且提出一种调度框架给每层一个最佳模式。

“四个层面”进行优化

1) At the algorithm level, the basic computational patterns are extended to a broader application scope based on loop transformation. They can be applied to all the cases
(Match,Overload,Underload).
2) At the scheduling level, we propose a more accurate performance model by considering both on-chip and off-chip memory access latency. Even large MLP layers that exceed the memory capacity are modeled in our evaluation.
3) At the architectural level, the critical path is shortened for higher working frequency.“Double-buffering” is applied to on-chip storage to enable successive computing. Gating techniques are used to save energy consumption.
4) At the experimental level, we give a detailed analysis on the whole system performance and pure accelerator performance of our work, and make comprehensive comparisons with recent neural accelerators. Finally, we explore the design space of hardware primitives,proving our design is a good trade-off between performance and resources.

(1)算法层面(2)调度层面(3)体系结构层面(4)实验层面

General-purpose neural approximation(通用神经近似模型)

RNA

COMPUTATIONAL PATTERNS(计算模式)

将ce与ne以及fe相比较。ce能更好的利用计算资源,并且有更大更好的提高性能的潜力。

用m代替n。循环 n 成为具有最小数据量的神经元的乘积,其中 m 是硬件中最大加法树的输入数。

SCHEDULING FRAMEWORK(调度框架)

 图示为RNA的计算步骤:控制,加载数据,计算以及存储数据。关键在于要使得计算逻辑比内存访问时间短。

该调度框架包含全部的MLP,从FCL计算至MLP的最后一层。

CONCLUSION

通用神经网络近似可以应用于多媒体计算,提高功耗效率。然而,不同的神经网络和有限的资源之间的不匹配会降低性能。我们提出了一个调度框架来选择不同 mlp 拓扑的最佳计算模式。Rna 被设计用来支持框架,提供比其他 mlp 加速器更高的性能和效率。Rna 加速器的加速比大约为572 ×,应用加速比为7.9 × ,节能6.3 × ,质量损失最多为9.8% 。

体系结构层面以及实验层面等待补充

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值