文献阅读(23)

  • 题目:software–hardware codesign for efficient neural network acceleration
  • 时间:2017
  • 期刊:IEEE MICRO
  • 研究机构:清华大学/韩松

1 缩写& 引用

ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA

2 abstract & from model to instructions

三个因素决定了深度学习算法能否高效的计算: workload, peak performance, efficiency
他们的工作可以分三步:

  1. 算法端的量化和压缩
  2. 硬件设计
  3. 编译器优化

3 Aristotle: CNN加速器

在这里插入图片描述
host CPU和accelerator之间数据和指令的通信是通过共享memory
runtime时候accelerator顺序的读指令,host CPU不会调度工作,之道accelerator完成了计算
一个PE负责计算一个输出通道,输出throughput是每时钟周期一个像素,其中PE包含很多convolver,每个convolver负责一个输入通道,结果通过加法数加到一起,每个PE还支持ReLU和pooling
不同的PE之间共享输入input feature,使用不同的kernel,计算不同输出通道

4 Descartes: sparse RNN/LSTM accelerator

  1. 剪枝策略的基本思想是将绝对值最小的权值归零
  2. 量化
  3. 把LSTM操作用系数矩阵表示,并且压缩存储
  4. 硬件
    在这里插入图片描述
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值