文章目录
- 题目:software–hardware codesign for efficient neural network acceleration
- 时间:2017
- 期刊:IEEE MICRO
- 研究机构:清华大学/韩松
1 缩写& 引用
ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA
2 abstract & from model to instructions
三个因素决定了深度学习算法能否高效的计算: workload, peak performance, efficiency
他们的工作可以分三步:
- 算法端的量化和压缩
- 硬件设计
- 编译器优化
3 Aristotle: CNN加速器
host CPU和accelerator之间数据和指令的通信是通过共享memory
runtime时候accelerator顺序的读指令,host CPU不会调度工作,之道accelerator完成了计算
一个PE负责计算一个输出通道,输出throughput是每时钟周期一个像素,其中PE包含很多convolver,每个convolver负责一个输入通道,结果通过加法数加到一起,每个PE还支持ReLU和pooling
不同的PE之间共享输入input feature,使用不同的kernel,计算不同输出通道
4 Descartes: sparse RNN/LSTM accelerator
- 剪枝策略的基本思想是将绝对值最小的权值归零
- 量化
- 把LSTM操作用系数矩阵表示,并且压缩存储
- 硬件