#每天一篇论文 329/365 EyrISV2:一种用于移动设备上深度神经网络的柔性加速器(一)

Eyeriss v2: A Flexible Accelerator for Emerging Deep Neural Networks on Mobile Devices
每天一篇论文汇总list
摘要

深度神经网络(deep neural network,DNN)发展的一个最新趋势是将深度学习应用扩展到资源和能量更为受限的平台,例如移动设备。
这些努力旨在减小DNN模型的尺寸,提高硬件处理效率,并使DNN具有更紧凑的结构和/或更高的数据稀疏性。这些紧凑或稀疏模型不同于传统的大型模型,因为它们的层形状和大小有更多的变化,并且常常需要专门的硬件来利用稀疏性来提高性能。因此,许多为大型DNN设计的DNN加速器在这些模型上性能不佳。在这项工作中,我们提出了eyerisv2,一个DNN加速器架构,设计用于运行紧凑和稀疏DNN。为了处理广泛变化的层形状和尺寸,它引入了一种高度灵活的片上网络,称为层次网格,它能够适应不同数据类型的数据重用和带宽需求的不同数量,从而提高计算资源的利用率。此外,Eyeriss v2可以直接在压缩域中处理稀疏数据,从而提高稀疏模型的处理速度和能量效率。总的来说,在稀疏MobileNet的情况下,65nm CMOS工艺中的eyerisv2在批量大小为1的情况下实现1470.6个推论/秒和2560.3个推论/J的吞吐量,比运行MobileNet的原始eyeris快12.6倍,能效高2.5倍。

贡献

本文通过设计高度灵活的片上网络(NOC)来实现的,这是目前处理更多样的DNNS的瓶颈。此外,Eyeriss v2还通过利用各种DNN层中权重和激活的稀疏性来支持稀疏DNN,并将其转化为在能效和处理速度方面的改进。最后,与原来的Eyeris类似,Eyeris v2没有对DNN层所需的总存储容量是否适合芯片进行任何假设,而是优化了不同类型数据的分片方式,实现了芯片的高重用和高能效。总之,本文的贡献包括:
1.一种新型的NoC,称为分层mesh,旨在适应广泛的带宽需求。当数据重用率较低时,它可以从存储器层次提供高带宽(通过单播),以保持PEs的忙碌;当数据复用率较高时,仍然可以利用空间数据复用(通过多播或广播)来实现高能效。对于像MobileNet这样的紧凑型DNN,分层网格增加了5.6倍的吞吐量和1.8倍的能量效率。
2.利用权重和激活的稀疏性,在各种DNN层上提高吞吐量和能效的PE。数据以压缩稀疏列(compressed sparse column,CSC)格式保存,用于片内处理和片外访问,以降低存储和数据移动成本。将权重映射到PE通过考虑稀疏性来提高PE内部的重用性,从而可以减少工作负载不平衡的影响。总体而言,利用稀疏性可使MobileNet的吞吐量和能效分别提高1.2倍和1.3倍。
3.运行稀疏MobileNet的eyeris v2比原来的eyeris快12.6倍,能效高2.5倍(扩展到与eyeris v2相同的PEs数量和存储容量),即运行MobileNet(49.2M MACs)的eyeris v1。与运行AlexNet(724.4M Mac)的Eyeriss v1相比,使用稀疏AlexNet的Eyeriss v2速度快42.5倍,能效高11.3倍。最后,运行稀疏MobileNet的eyerisv1比运行AlexNet的eyerisv1快225.1倍,节能42.0倍。很明显,支持稀疏和紧凑dnn对速度和能耗有显著影响。

方法
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值