文献阅读（42）sticker

最新推荐文章于 2024-01-25 10:27:59 发布

tiaozhanzhe1900

最新推荐文章于 2024-01-25 10:27:59 发布

阅读量707

点赞数

分类专栏： NPU

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tiaozhanzhe1900/article/details/103298678

版权

NPU 专栏收录该内容

76 篇文章

订阅专栏

文章目录

1 缩写 & 引用
2 abstract & introduction
3 面向稀疏性的处理器设计
1 缩写 & 引用
2 abstract & introduction
3 硬件架构总览
4 分级稀疏度的控制和数据流
5 分级稀疏度的存储设计

题目：STICKER: A 0.41-62.1 TOPS/W 8bit Neural Network Processor with Multi-Sparsity Compatible Convolution Arrays and Online Tuning Acceleration for Fully Connected Layers
时间：2018
会议：Symposium on VLSI Circuits
研究机构：清华刘勇攀

1 缩写 & 引用

CSC: compressed sparse column
COO: coordinate sparse matrix format
NSG: dense format with zero-guard
NSD: dense format without zero=guard
IDX: index module

2 abstract & introduction

本篇论文的主要贡献：

自动化的sparsity detector，可以切换处理器模式
支持multi-sparsity的PE阵列和memory，组相联PE支持密集和稀疏操作
对稀疏全连接层online tuning的PE，基于Compressed Sparse Column的后向传播

在65nm工艺下，8bit位宽实现了62.1TOPS/W，7.8平方微米，200MHz@1V，运行的是Alexnet和lenet

3 面向稀疏性的处理器设计

3.1 sparsity-aware控制器

权重和activation分别由sparse，medium和dense三种模式，两两组合就是九种模式，PE阵列可以在这九种模式中切换，这就需要一个online activation sparsity detector

3.2 multi-sparsity compatible卷积PE阵列

不同模式下会使用不同的编码方式将activation存储在memory中：

sparse模式：coordinate sparse matrix format (COO)
medium模式：dense formats with zero-guards (NSG)
dense模式：dense formats without zero-guards (NSD)

在这里插入图片描述
multi-sparsity compatible set-associative卷积PE阵列可以支持上面三种模式，支持不规则的部分和，具体实现是二路组相联

3.3 对稀疏全连接层的online tuning PE

两点主要的创新：

权重被32个量化中心聚类，用K-means算法，权重更新着干扁量化中心而不是所有的权重，这样更快
CSC格式可以更快的后向传播

在这里插入图片描述

题目：STICKER: An Energy-Efficient Multi-Sparsity Compatible Accelerator for Convolutional Neural Networks in 65-nm CMOS
时间：2019
期刊：JSSC
研究机构：清华刘勇攀

1 缩写 & 引用

DGB: Data Zero Guard Bank

2 abstract & introduction

之前的关于稀疏性的工作可以分成两类：

存数据还是正常存，遇到0跳掉或者关掉：可以节省能耗，不能节省存储空间
存储和计算都是只看非零元素，但是当数据是密集的时候，就会有overhead

本篇论文的主要贡献： 利用神经网络的稀疏性来降低能耗

多级稀疏模式的控制
面对不同稀疏性的多级存储模式的选择
组相联的PE结构，支持不同稀疏模式

3 硬件架构总览

4 分级稀疏度的控制和数据流

5 分级稀疏度的存储设计

在这里插入图片描述
每个Memory都有三个Bank：

DGB: Data Zero Guard Bank
DB0: Data Bank 0
DB1: Data Bank 1

存储以16x16为单位切成block，一共有四种：zero block、sparse block、medium block、dense block

tiaozhanzhe1900

博客等级

码龄7年

207
原创

120
点赞

418
收藏

367
粉丝

关注

私信

热门文章

分类专栏

芯片互联 45篇
CGRA 7篇
算法论文 13篇
编译优化 17篇
二专毕设 6篇
操作系统 3篇
提纲总结 8篇
NPU 76篇
课堂笔记 16篇
FPGA 5篇
mooc 4篇

最新评论

Arteris Training
#Neverland: 你好，有相关的文档可以分享下吗？
文献阅读（208）multi-FPGA
Mendelay: 我对此非常疑惑，望大佬讲讲
文献阅读（208）multi-FPGA
Mendelay: 我顺着DFX的思路，计算了一下DFX的延迟时间。在文中有一个这样的论述，Each of the FP16 multiplier and adder is mapped to one digital signal processing slice (DSP) and two DSPs.The multiplier takes 6 cycles, and the adder takes 11 cycles. 那这里计算至少需要17cycles. 从文中还可以看到200MHz，那实际上如果是16x64的一次计算，那么算力为： 200,000,000 × 16 × 64 / 17 = 12 GFLOPs(FP16)。也太低了吧，根本达不到标称的184GFLOPs。
文献阅读（108）二值化神经网络
CSDN-Ada助手: 神经网络中的递归神经网络有哪些应用？
Arteris Training
qq_45498816: 您好，Init IP与多个不同target并发访问这个场景是怎么发生的呢？我没太理解

大家在看

【分享】变声器大师[特殊字符]乔碧萝同款变声[特殊字符]游戏变声[特殊字符] 103

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。