文献阅读(63)

  • 题目:Bit-Tactical: A Software/Hardware Approach to Exploiting Value and Bit Sparsity in Neural Networks
  • 时间:2019
  • 会议:ASPLOS
  • 研究机构:多伦多大学

1 缩写 & 引用

  • CE: computing engine
    SCNN: An Accelerator for Compressed-sparse Convolutional Neural Networks 2017 ISCA
    Cambricon-S: Addressing Irregularity in Sparse Neural Networks through A Cooperative Software/Hardware Approach 2018 MICRO

2 abstract & introduction

之前的工作,有的是单独跳掉零权重,有的是单独跳掉零feature map,都有可以提高的空间;SCNN二者都跳掉了,但是面积开销比较大,影响了性能
本篇论文的主要贡献有:

  1. 从skip zero出发提出了加速神经网络的新方法:利用比特级稀疏性
  2. 调度策略由软件提供,同时展现了对应的硬件设计
  3. 权重调度算法
  4. 软硬件协同设计,在功耗、面积、性能各方面进行了权衡

在这里插入图片描述

3 零权重skip

主要的两个技术就是lookahead和lookaside,一个是为了跳掉零,一个是为了负载平衡
在这里插入图片描述

3.1 权重lookahead

lookahead相当于建立了一个h+1的滑动窗口,在该窗口中,权重可以高于先前在同一车道上出现的无效权重。
TCL必须在运行时将每个权重与相应的激活配对。为了实现这一配对,TCL要求可以激活lookahead窗口的所有活动。如果h=1,对于每个权重车道,现在有2个激活车道对应于时间步t和t+1。
TCL通过按权重lane2对1mux选择适当的激活。
当创建调度时,mux的控制信号是静态确定的,并且与权重一起存储。一般来说,对于前视h,TCL为每个权重lane维护一个h+1激活池和一个(h+1-1)多路复用器以选择适当的激活。
在实践中,我们证明了提前1或2个就足够了。由于Lookahead确定了每权重激活的搜索窗口的大小以及实际存在的激活通道的数量,因此应该小心地增加它。

3.2 权重lookaside

lookahead的瓶颈是有最多非零权重的权重lane,导致不平衡。
旁路引入了进一步的调度灵活性,其中lane可以从另一条lane上“窃取”工作,从而对相同的输出激活做出贡献,相当于将权重移动到CE中的不同乘数。
下图显示了lookaside为1(表示为d=1)时,TCL使用可能的最小2个周期处理我们的示例。
Lookaside不需要额外的激活通道。它只需要一个具有更多输入的激活多路复用器,因此比lookahead成本更低。
一般来说,我们的字体端需要相当于(h+d+1)到-1的多路复用器,每个乘法器(4到8输入证明足够)用于查找h和查找d(表示<h,d>)。
如上一节所述,这些多路复用器的数据输入连接是静态确定的和规则的。
在这里插入图片描述

3.3 硬件连接和软件影响

使用权重lookahead和权重lookaside的组合,我们可以实现任意的滤波器内互连,直至并包括一个crossbar。
然而,我们对成本更低、设计合理的互连模式感兴趣。
我们所研究的这些互连模式中最简单的是一个由h的lookahead和d的lookaside组成的连续模式,结果是一个“L”形的搜索窗口,如下图所示。
最好设计非连续的,即稀疏的,连接性模式,如图3b的三叉戟状T<2,5>模式。
这些好处在于减少了相邻lane之间的重叠连接,这在经验上导致了更多的提升机会,并减少了相邻权重之间的竞争。
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值