自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(197)
  • 收藏
  • 关注

原创 文献阅读(307)AccelWattch

提出了一个GPU功耗模型,考虑了DVFS, thread divergence, intra-warp functional unit overlap, variable SM occupancy, and power gating。功耗可以分成三部分,恒定功耗、静态功耗和动态功耗。

2024-06-25 10:30:17 548

原创 文献阅读(216)Deflection Routing

A Support Vector Regression (SVR)-based Latency Model for Network-on-Chip(NoC) Architectures 2015 TCADAnalytical Performance Modeling of NoCs under Priority Arbitration and Bursty Traffic 2020 IEEE Embedded Systems LettersAnalytical Performance Models f

2024-06-25 00:21:55 210

原创 文献阅读(214)CXL-PNM

题目:An LPDDR-based CXL-PNM Platform for TCO-efficient Inference of Transformer-based Large Language Models会议:HPCA时间:2024研究机构:三星

2024-03-20 21:42:28 332 1

原创 文献阅读(15)Griffin

本篇论文最大的贡献我认为是用统一的表示方法规范表示了各种稀疏计算的类型,并针对不同稀疏计算类型确定硬件overhead,从而实现设计探索。

2023-12-15 13:07:19 128

原创 NoC流量控制

参考链接1:https://blog.csdn.net/yang1573/article/details/128787167参考链接2:https://shili2017.github.io/posts/NOC5/参考文件:SE22_noc_flow_control.pdf

2023-11-16 22:07:33 304

原创 文献阅读(207)FPGA HBM

FPGA中的HBM主要是为了解决带宽受限的问题,这里的两篇论文都是针对存储和互连的优化,希望能最大化HBM的带宽。

2023-10-23 21:32:18 585

原创 文献阅读(206)gem5-Aladdin Cohmeleon

本文介绍了gem5-aladdin,集成了gem5系统模拟器和aladdin加速器模拟器,能够模拟具有复杂加速器-系统交互的SOC。数据路径的并行性应该更低,与隔离设计的加速器相比,这可以实现更平衡的设计和更高的能效。其次,本地内存接口的选择高度依赖于动态内存加速工作负载的特征,系统架构以及所需的功耗/性能目标。对于专用硬件加速器,有的可以直接访问片外DRAM,有的会有自己的private cache,虽然不需要细粒度同步,但同样需要缓存一致性来保证数据确定正确性。

2023-05-26 10:26:52 252

原创 文献阅读(204)Big-Little

NoP采用Y-X路由方法,每个chiplet由一个本地DRAM(本工作中为DDR4)组成,其中存储了IMC交叉阵列所需的权重。大chiplet通过micro-bumps直接连接到基板上。基于bridge的NoP用于大chiplet的通信。针对存内计算,同构chiplet的硬件利用率不一定高,这是因为DNN中前面的网络层特征图多,后面的网络层权重多。

2023-04-23 19:18:54 119

原创 文献阅读(203)In-Network Cache Coherence

交换机是服务器间通信的集中枢纽,可用来处理缓存一致性,来减少服务器之间的通信。而且,交换机拥有片上内存,允许在交换机中存储缓存块元数据。此外,片上存储器可以支持原子读-修改-写操作,从而减轻同步冲突的一致性请求的努力。本篇论文是在可编程交换机中实现快速的in-network cache coherence,为了克服可编程交换机的局限性,我们还引入了两种技术。分布式共享内存(DSM)需要缓存一致性,但会导致更多的通信影响整体吞吐率,极端情况下,仅仅5%的写入率就会导致50%吞吐的降低。

2023-04-15 17:35:08 161

原创 文献阅读(202)CXL Pooled Memory

云规模系统中的大量内存处于闲置状态,而且需要CXL实现内存扩展。

2023-04-03 09:51:10 131

原创 文献阅读(247)AIpa

现有的分布式训练系统要么需要用户手动创建并行化计划,要么需要用户从有限的模型并行化配置空间中自动生成并行化计划,不适合在分布式设备上扩展复杂的DNN模型。本篇论文将分布式训练分成了inter-operator并行和intra-operator并行。inter-operator parallelism: 只需要在相邻计算阶段之间需要通信,但数据依赖可能导致设备的空闲时间。intra-operator parallelism: 硬件利用率更高,但每次训练迭代中需要在拆分和合并时进行通信。

2023-03-26 21:21:51 456

原创 文献阅读(201)topology-aware sparse allreduce

图(b)中,类似GPU的NVCLuster,节点包括4个CPU和8个GPU,排列在超立方体网格中,如图1(b)所示。因为每个V100 GPU具有6个NV link,所以通过允许两个NV link连接额外的主干环,即作为0-3-2-1-5-6-7-4的环,在GPU之间构建一对GPU。图(a)中,每个节点有2个Xeon Gold CPU和4个Tesla V100 GPUs。GPU之间的节点内网络是全连接网络拓扑,由50GBps的NVLink组成。在每次迭代中,使用数据集的不同部分独立计算前向和后向,

2023-03-25 15:47:05 348

原创 文献阅读(195)物理设计/时序分析

11

2022-12-10 22:00:34 305

原创 文献阅读(194)Multi-packet Bypassing

本篇论文的主要贡献:- 新的流控制算法FastFlow,用于在非重叠路径上无缓冲地路由- 通过promoting blocked packet来实现无死锁

2022-12-07 10:57:41 407

原创 文献阅读(192)光互连&存内计算互连架构

光互连&存内计算互连架构

2022-11-30 22:53:30 479

原创 文献阅读(190)Adapt NoC

本篇论文的主要贡献:1. 可重构NoC架构Adapt-NoC,为多个不相交subNoC提供2. 通过流量控制和路由,协同不同的子网拓扑,提升性能

2022-11-23 14:41:24 287

原创 文献阅读(189)Interposer

111

2022-11-23 10:51:52 338

原创 文献阅读(188) ORION

面积评估的方法可以分成parametric modeling基于参数的建模和nonparametric modeling非参数的建模,其中非参数模型直接基于P&R结果的样本集自动生成的估计模型,如SVM,径向基函数(radial basis functions)

2022-11-15 19:50:48 117

原创 文献阅读(185)Co-design

本篇论文的主要贡献:1. A unified tool flow that, for the first time, designs and optimizes chiplets and the package of high-density 2.5D systems together taking into account the mutual interactions between them; 2. A new holistic parasitic extraction and STA a....

2022-08-05 18:06:39 460

原创 内存子系统

一般来说,DRAM 是一个焊接在 PCB 上的独立芯片,而 PHY 与 MC 则是 FPGA 或者 ASIC 用户逻辑的一部分

2022-08-03 22:40:20 302

原创 文献阅读(183)MAGMA

- We utilized optimization-based mapper to solve the mapping problem, while prior arts focus on manually designing a mapper.- We target both homogeneous and heterogeneous DNN accelerator platforms. - We target a diverse spectrum of models across vision,

2022-08-02 10:54:57 230

原创 文献阅读(245)Roller

针对Nivida以外的硬件平台如AMD GPU和Graphcore IPU,采用构造的方式生成kernel

2022-07-27 10:44:49 264

原创 Arteris Training

ARTERIS

2022-07-13 22:00:43 1972 3

原创 文献阅读(104)Transformer

题目:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale时间:2021会议:ICLR研究机构:谷歌

2022-05-20 01:15:42 69

原创 文献阅读(11)FlexFlow

文章目录1 introduction2 method2.1 输入复用Input Reuse(IR)2.2 输出复用Output Reuse(OR)题目:Deep Convolutional Neural Network Architecture With Reconfigurable Computation Patterns时间:2017期刊: TVLSI研究机构:清华大学1 introduction本篇论文的主要贡献:DNA can reconfigure its data paths

2022-04-30 11:56:39 522

原创 文献阅读(241)TENET

文章目录1 introduction题目:TENET: A Framework for Modeling Tensor Dataflow Based on Relation-centric Notation时间:2021会议:ISCA研究机构:北大1 introduction如何描述数据流? 本文总结了三种形式computation-centricdata-centricrelation-centric** relation-centric notation:**the lo

2022-04-23 19:26:23 495

原创 文献阅读(20)NPE OPU

文章目录1 introduction题目:NPE: An FPGA-based Overlay Processor for Natural Language Processing时间:2021会议:FPGA研究机构:UCLA1 introductionMotivation:传统的DNN加速器能够加速的一个重要原因是计算位宽低,但transformer有很多非线性单元,数据精度更高,二者形成矛盾针对transformer的定制化硬件加速性能好,但灵活性不够,满足不了算法变更的需求本篇

2022-04-22 20:30:50 111

原创 Win11/10家庭版禁用Edge的inprivate浏览功能

参考链接:https://answers.microsoft.com/zh-hans/microsoftedge/forum/all/%E8%AF%B7%E6%95%99%E5%A6%82%E4%BD%95%E7%A6%81/5cc38d67-0679-45c4-b3f7-ca568cca4cbf百度的其他解决方案是错误的,不能解决目前(2022年之后的win10版本)禁用Edge的注册表操作。正确的操作为启动 Windows 系统注册表编辑器,定位至 HKEY_LOCAL_MACHINE\SOF.

2022-04-22 18:14:09 3774 2

原创 文献阅读(240)NAAS

本篇论文的主要贡献: 提出了神经加速器架构搜索 (NAAS),全面搜索神经网络架构、加速器架构和编译器映射

2022-04-05 01:41:12 242

原创 文献阅读(180)NoC mapping

文章目录题目:GAMMA: Automating the HW Mapping of DNN Models on Accelerators via Genetic Algorithm时间:2022会议:ICCAD研究机构:GIT本篇论文的主要贡献: 针对DNN mapping定义了完整映射空间,通过遗传算法实现了DNN的自动mappingDNN加速器的架构可以分成两部分,硬件资源以及映射策略,其中本文的硬件资源主要是面向NoC互连的PE阵列,而硬件映射主要包含了tiling strategy

2022-04-05 01:27:59 576

原创 文献阅读(179)Layerweaver & PREMA

本篇论文的主要贡献: 针对多个DNN模型进行分时复用调度,来尽可能提高硬件计算与带宽的利用率。核心思路还是计算任务和通信任务的切分,以及不同网络之间的调度

2022-04-02 21:33:59 214

原创 文献阅读(178)chiplet成本

文章目录题目:Chiplet Actuary: A Quantitative Cost Model and Multi-Chiplet Architecture Exploration时间:2022会有:DAC研究机构:清华马恺声本篇论文的主要贡献: 针对chiplet成本的量化分析模型以及分析方法chiplet确实可以提高芯粒良率,但同时也会增加其他的成本,包括基板、D2D开销以及NRE成本,本篇论文便是首次分析了D2D的间接费用以及NRE成本良率模型:chiplet复用方式可以分为

2022-04-02 00:22:35 791 1

原创 文献阅读(176)waferscale chiplet

This work for the first time, attempts to build a fine-grained chiplet-based waferscale processor prototype

2022-03-25 12:26:27 370

原创 文献阅读(172)2021 NoC论文

针对虚通道Virtual Channle(VC)分配问题进行优化,将VC分配问题抽象成Traffic Conflict Graph图,并在VC mapping之后生成拓扑。

2022-03-03 22:18:19 462

原创 文献阅读(171)2022体系架构

本篇论文的主要贡献: 针对训练时量化的神经网络架构1. 训练时量化,使得训练精度几乎不降低2. 提出了一个加速单元完成sliced data的statistic-based量化3. 通过一个近存处理单元来减少权重数据的搬运

2022-02-11 10:03:29 72

原创 文献阅读(170)Chiplet规范

ODSA的目的是为chiplet建立开放的物理与逻辑D2D接口

2022-02-08 09:53:59 623

原创 文献阅读(8)GANPU

文章目录1 缩写 & 引用2 整体架构3 多DNN负载分配策略4 稀疏性5 NoC架构题目:GANPU: A 135TFLOPS/W Multi-DNN Training Processor for GANs with Speculative Dual-Sparsity Exploitation时间:2020会议:ISSCC研究机构:KAIST参考博客:https://blog.csdn.net/darknessdarkness/article/details/1044361501

2022-01-17 20:39:58 245

原创 文献阅读(35)2022 Transformer加速器

文章目录1 introduction2 methods2.1 softmax题目:I-BERT: Integer-only BERT Quantization时间:2021会议:Proceedings of the 38th International Conference on Machine Learning, PMLR研究机构:UCBGithub:https://github.com/kssteven418/I-BERT1 introduction本篇论文的主要贡献:针对Trans

2022-01-11 00:02:08 438

原创 文献阅读(168)强化学习 & Routerless NoC

文章目录题目:A Deep Reinforcement Learning Framework forvArchitectural Exploration: A Routerless NoC Case Study时间:2020会议:HPCA研究机构:南加大/俄勒冈州立大学本篇论文的主要贡献:Routerless NoC搜索空间巨大,本篇论文采用了强化学习+蒙特卡洛数数搜索,最后实现吞吐提高、延时降低、功耗降低一共有两种没有路由器的NoCisolated multi-ring(IMR):

2021-11-02 11:09:35 975

原创 文献阅读(305)模图嵌入

文章目录题目:Modulo Graph Embedding: Mapping Applications onto Coarse-Grained Reconfigurable Architectures时间;2006会议:DAC研究机构:密西根大学本篇论文的主要贡献:利用图论中的图嵌入,它用于将循环体绘制在CGRA硬件上,并服从模资源使用约束The loop body is essentially drawn onto the CGRA mesh, subject to modulo re

2021-10-26 13:28:59 1144

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除