自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(209)
  • 收藏
  • 关注

原创 文献阅读(222) VVQ协议死锁

request-reply协议死锁如下图所示,每个node收到request之后发送reply,但是想要发送replay时发现链路都被request堵住了。

2024-10-15 20:08:04 217

原创 文献阅读(220)MRCN

下图中Packet A分成两条路径,但在router3被Packet B阻塞,而Packet B又被Packet A阻塞,造成死锁。多播的路径有太多选择,通常是找哈密顿路径,或者在哈密顿路径的基础上增加边,标号按递增或者递减的顺序就一定不会死锁。这篇论文探讨的问题是。

2024-09-22 23:09:53 207

原创 文献阅读(81)FACT

存储和使用:生成的QKV矩阵以乱序的方式存储在临时缓冲区中,当计算某一行的注意力分数时,直接从缓冲区中读取对应的QKV矩阵。过去的工作只是节约了S=QK的计算量,还不够,这篇论文更进一步,预测完再动态的生成QKV,从而结余QKV的计算量。步骤3:当EP单元预测下一行的注意力矩阵时,PE阵列会计算额外需要的K、V矩阵,同时继续处理之前生成的Q矩阵。输入和预测:输入token矩阵被送入系统,同时EP单元开始工作,预测注意力矩阵。步骤1:EP单元预测第一行的注意力矩阵,确定需要计算的K、V矩阵的列。

2024-09-20 15:35:04 488

原创 文献阅读(218)EHP

开始有chiplet的概念,4个CPU chiplet (CCD) + 1个IO Die + DRAM堆叠+silicon interposer。最开始EHP,是基于DRAM堆叠+silicon interposer。

2024-09-02 23:28:50 376

原创 文献阅读(307)AccelWattch

提出了一个GPU功耗模型,考虑了DVFS, thread divergence, intra-warp functional unit overlap, variable SM occupancy, and power gating。功耗可以分成三部分,恒定功耗、静态功耗和动态功耗。

2024-06-25 10:30:17 627

原创 文献阅读(216)Deflection Routing

A Support Vector Regression (SVR)-based Latency Model for Network-on-Chip(NoC) Architectures 2015 TCADAnalytical Performance Modeling of NoCs under Priority Arbitration and Bursty Traffic 2020 IEEE Embedded Systems LettersAnalytical Performance Models f

2024-06-25 00:21:55 316

原创 文献阅读(214)CXL-PNM

题目:An LPDDR-based CXL-PNM Platform for TCO-efficient Inference of Transformer-based Large Language Models会议:HPCA时间:2024研究机构:三星

2024-03-20 21:42:28 669 1

原创 ISSCC 2024

2.2 AMD Zen 4c题目:“Zen 4c”: The AMD 5 nm Area-Optimized x86-64 Microprocessor Core研究机构:AMD2.3 Intel Emerald Rapids题目:Emerald Rapids: 5th-Generation Intel® Xeon® Scalable Processors研究机构:Intel2.4 ATOMUS题目:ATOMUS: A 5nm 32TFLOPS/128TOPS ML Sys

2024-03-04 10:50:15 272

原创 文献阅读(15)Griffin

本篇论文最大的贡献我认为是用统一的表示方法规范表示了各种稀疏计算的类型,并针对不同稀疏计算类型确定硬件overhead,从而实现设计探索。

2023-12-15 13:07:19 190

原创 文献阅读(221)NoC流量控制

本文是面向Hierarchical Ring Network的混合流量控制:提出了一种新颖的混合流量控制方法,其中channel在flit粒度上分配,而buffer在packet粒度上分配。相比于cut-through,按照flit来分配buffer,也就是说即使buffer大小小于整个packet大小也没关系。就是独占所有的链路,需要提前request和响应,bufferless也可以使用。相比于store and forward可以流水线流起来。只有一个完整的packet传完才会传到下一个结点。

2023-11-16 22:07:33 515

原创 文献阅读(207)FPGA HBM

FPGA中的HBM主要是为了解决带宽受限的问题,这里的两篇论文都是针对存储和互连的优化,希望能最大化HBM的带宽。

2023-10-23 21:32:18 919

原创 文献阅读(208)multi-FPGA

从结果中可以看出来,multi-FPGA会占据17.3%的时间用来同步(估计是因为数据传输的原因)

2023-10-22 21:39:47 93 2

原创 文献阅读(206)gem5-Aladdin Cohmeleon

本文介绍了gem5-aladdin,集成了gem5系统模拟器和aladdin加速器模拟器,能够模拟具有复杂加速器-系统交互的SOC。数据路径的并行性应该更低,与隔离设计的加速器相比,这可以实现更平衡的设计和更高的能效。其次,本地内存接口的选择高度依赖于动态内存加速工作负载的特征,系统架构以及所需的功耗/性能目标。对于专用硬件加速器,有的可以直接访问片外DRAM,有的会有自己的private cache,虽然不需要细粒度同步,但同样需要缓存一致性来保证数据确定正确性。

2023-05-26 10:26:52 470

原创 文献阅读(204)Big-Little

NoP采用Y-X路由方法,每个chiplet由一个本地DRAM(本工作中为DDR4)组成,其中存储了IMC交叉阵列所需的权重。大chiplet通过micro-bumps直接连接到基板上。基于bridge的NoP用于大chiplet的通信。针对存内计算,同构chiplet的硬件利用率不一定高,这是因为DNN中前面的网络层特征图多,后面的网络层权重多。

2023-04-23 19:18:54 154

原创 文献阅读(202)CXL Pooled Memory

云规模系统中的大量内存处于闲置状态,而且需要CXL实现内存扩展。

2023-04-03 09:51:10 196

原创 文献阅读(247)AIpa

现有的分布式训练系统要么需要用户手动创建并行化计划,要么需要用户从有限的模型并行化配置空间中自动生成并行化计划,不适合在分布式设备上扩展复杂的DNN模型。本篇论文将分布式训练分成了inter-operator并行和intra-operator并行。inter-operator parallelism: 只需要在相邻计算阶段之间需要通信,但数据依赖可能导致设备的空闲时间。intra-operator parallelism: 硬件利用率更高,但每次训练迭代中需要在拆分和合并时进行通信。

2023-03-26 21:21:51 610

原创 文献阅读(201)topology-aware sparse allreduce

图(b)中,类似GPU的NVCLuster,节点包括4个CPU和8个GPU,排列在超立方体网格中,如图1(b)所示。因为每个V100 GPU具有6个NV link,所以通过允许两个NV link连接额外的主干环,即作为0-3-2-1-5-6-7-4的环,在GPU之间构建一对GPU。图(a)中,每个节点有2个Xeon Gold CPU和4个Tesla V100 GPUs。GPU之间的节点内网络是全连接网络拓扑,由50GBps的NVLink组成。在每次迭代中,使用数据集的不同部分独立计算前向和后向,

2023-03-25 15:47:05 438

原创 文献阅读(200)Secure NoC

在本篇论文中,作者将NoC路由器和集成电压调节器(integrated voltage regulators, IVR)嵌入到有源interposer中,并将安全监视器security monitors集成到基于interposer的片上网络中,以保护系统及其共享内存免受恶意流量的攻击

2023-03-24 21:37:56 40

原创 文献阅读(195)物理设计/时序分析

11

2022-12-10 22:00:34 436

原创 文献阅读(194)Multi-packet Bypassing

本篇论文的主要贡献:- 新的流控制算法FastFlow,用于在非重叠路径上无缓冲地路由- 通过promoting blocked packet来实现无死锁

2022-12-07 10:57:41 457

原创 文献阅读(193)H2H

本篇论文的主要贡献

2022-12-05 16:22:43 42

原创 文献阅读(192)光互连&存内计算互连架构

光互连&存内计算互连架构

2022-11-30 22:53:30 570

原创 文献阅读(190)Adapt NoC

本篇论文的主要贡献:1. 可重构NoC架构Adapt-NoC,为多个不相交subNoC提供2. 通过流量控制和路由,协同不同的子网拓扑,提升性能

2022-11-23 14:41:24 379

原创 文献阅读(189)Interposer

111

2022-11-23 10:51:52 476

原创 文献阅读(188) ORION

面积评估的方法可以分成parametric modeling基于参数的建模和nonparametric modeling非参数的建模,其中非参数模型直接基于P&R结果的样本集自动生成的估计模型,如SVM,径向基函数(radial basis functions)

2022-11-15 19:50:48 177

原创 文献阅读(187)AccPar

如何对多个加速器进行任务划分?采用二分法Hybrid Memory Cube (HMC): DRAM die和逻辑die堆叠在一起,中间通过TSV通孔,本篇论文包括H Tree和Torus具体的PE采用了row stationary的数据流。

2022-11-03 19:21:46 46

原创 文献阅读(185)Co-design

本篇论文的主要贡献:1. A unified tool flow that, for the first time, designs and optimizes chiplets and the package of high-density 2.5D systems together taking into account the mutual interactions between them; 2. A new holistic parasitic extraction and STA a....

2022-08-05 18:06:39 626

原创 内存子系统

一般来说,DRAM 是一个焊接在 PCB 上的独立芯片,而 PHY 与 MC 则是 FPGA 或者 ASIC 用户逻辑的一部分

2022-08-03 22:40:20 481

原创 文献阅读(184)AXI NoC

本篇论文的主要贡献:1. 在NI中设计了AXI4信号格式和NoC数据包格式之间的数据转换,使得NoC设计独立于AXI4协议。2. 我们定义了三种不同的QoS服务,并设计了一个基于片上网络的通信架构3. 我们在每个NI中提出了一个流量转换器单元,智能地将数据包从一个拥塞严重的子网分发到另一个拥塞较少的子网,从而提高NoC性能。4. 我们在VC子网中提出了三种不同的流量控制机制,并在实验部分比较了它们在数据包延迟方面的性能结果。5. 我们建立了一个周期精确的模拟器来模拟我们提出的系统的行为。我....

2022-08-02 22:46:09 927

原创 文献阅读(183)MAGMA

- We utilized optimization-based mapper to solve the mapping problem, while prior arts focus on manually designing a mapper.- We target both homogeneous and heterogeneous DNN accelerator platforms. - We target a diverse spectrum of models across vision,

2022-08-02 10:54:57 278

原创 文献阅读(245)Roller

针对Nivida以外的硬件平台如AMD GPU和Graphcore IPU,采用构造的方式生成kernel

2022-07-27 10:44:49 328

原创 Arteris Training

ARTERIS

2022-07-13 22:00:43 4476 5

原创 文献阅读(104)Transformer

题目:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale时间:2021会议:ICLR研究机构:谷歌

2022-05-20 01:15:42 103

原创 文献阅读(11)FlexFlow

文章目录1 introduction2 method2.1 输入复用Input Reuse(IR)2.2 输出复用Output Reuse(OR)题目:Deep Convolutional Neural Network Architecture With Reconfigurable Computation Patterns时间:2017期刊: TVLSI研究机构:清华大学1 introduction本篇论文的主要贡献:DNA can reconfigure its data paths

2022-04-30 11:56:39 708

原创 文献阅读(241)TENET

文章目录1 introduction题目:TENET: A Framework for Modeling Tensor Dataflow Based on Relation-centric Notation时间:2021会议:ISCA研究机构:北大1 introduction如何描述数据流? 本文总结了三种形式computation-centricdata-centricrelation-centric** relation-centric notation:**the lo

2022-04-23 19:26:23 586

原创 文献阅读(20)NPE OPU

文章目录1 introduction题目:NPE: An FPGA-based Overlay Processor for Natural Language Processing时间:2021会议:FPGA研究机构:UCLA1 introductionMotivation:传统的DNN加速器能够加速的一个重要原因是计算位宽低,但transformer有很多非线性单元,数据精度更高,二者形成矛盾针对transformer的定制化硬件加速性能好,但灵活性不够,满足不了算法变更的需求本篇

2022-04-22 20:30:50 182

原创 Win11/10家庭版禁用Edge的inprivate浏览功能

参考链接:https://answers.microsoft.com/zh-hans/microsoftedge/forum/all/%E8%AF%B7%E6%95%99%E5%A6%82%E4%BD%95%E7%A6%81/5cc38d67-0679-45c4-b3f7-ca568cca4cbf百度的其他解决方案是错误的,不能解决目前(2022年之后的win10版本)禁用Edge的注册表操作。正确的操作为启动 Windows 系统注册表编辑器,定位至 HKEY_LOCAL_MACHINE\SOF.

2022-04-22 18:14:09 4595 2

原创 文献阅读(240)NAAS

本篇论文的主要贡献: 提出了神经加速器架构搜索 (NAAS),全面搜索神经网络架构、加速器架构和编译器映射

2022-04-05 01:41:12 307

原创 文献阅读(180)NoC mapping

文章目录题目:GAMMA: Automating the HW Mapping of DNN Models on Accelerators via Genetic Algorithm时间:2022会议:ICCAD研究机构:GIT本篇论文的主要贡献: 针对DNN mapping定义了完整映射空间,通过遗传算法实现了DNN的自动mappingDNN加速器的架构可以分成两部分,硬件资源以及映射策略,其中本文的硬件资源主要是面向NoC互连的PE阵列,而硬件映射主要包含了tiling strategy

2022-04-05 01:27:59 732

原创 文献阅读(179)Layerweaver & PREMA

本篇论文的主要贡献: 针对多个DNN模型进行分时复用调度,来尽可能提高硬件计算与带宽的利用率。核心思路还是计算任务和通信任务的切分,以及不同网络之间的调度

2022-04-02 21:33:59 289

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除