自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 互连网络的负载平衡路由算法 (UGAL, Universal Globally Adaptive Load-Balancing 通用全局自适应负载平衡)

UGAL 是一种自适应路由算法,可保证最坏情况下的最佳性能,而不会牺牲良性(最佳情况)流量的任何局部性。UGAL 通过根据通道队列的拥塞情况自适应地决定何时最小化或非最小化路由数据包来实现此属性。UGAL 是通用的,因为它可以应用于任意对称拓扑。我们将 UGAL 应用于三种对称拓扑 - 全连接图、环面网络和立方体连接循环,并通过广泛的模拟证明了其对每种拓扑的有效性。

2024-04-29 23:07:21 858

原创 【科研相关知识】运筹学——排队论模型

运筹学是一门研究如何在有限资源条件下做出最优决策的学科。它结合了数学、统计学和计算机科学等多个领域的理论和方法,以解决各种实际问题,如生产调度、物流优化、资源分配、项目管理等。运筹学的目标是通过建立数学模型和运用优化算法,使得在面对复杂的决策问题时能够找到最佳的解决方案。排队系统基本组成部分:1. 输入过程(顾客按照怎样的规律到达)2. 排队规则(顾客按照一定规则排队等待服务)3. 服务机构(服务机构的设置、服务台的数量、服务的方式、服务时间分布等)

2024-04-29 14:07:44 933

原创 【论文阅读】互连网络的负载平衡路由算法 (CQR, Channel Queue Routing 通道队列路由)

总而言之,CQR 感知近似全局拥塞,并使用通道队列拥塞做出自适应全局路由决策,以最小化本地流量路由,同时非最小路由以在高负载下平衡困难流量模式。CQR 与 GAL 一样,可以匹配局部模式上的最小算法的吞吐量,以及困难模式上的负载平衡不经意算法的吞吐量——这是其他不做出全局自适应决策的算法无法实现的。通道队列路由克服了与 GAL 相关的许多问题。最重要的是,在需要非最小路由的负载上,CQR 的延迟远低于 GAL。这是因为在切换到非最小路由之前,它不需要将最小流量运行到饱和状态,从而导致高延迟。

2024-04-28 23:22:25 983

原创 【论文阅读】互连网络的负载平衡路由算法 (GAL, Globally Adaptive Load-balancing 全局自适应负载平衡)

在低负载和良性流量模式下,GAL 最小限度地路由所有流量,因此与此类友好流量上的最小路由算法的低延迟和高吞吐量相匹配。在对抗性流量模式下,GAL 在低负载时进行最小路由,然后在注入队列检测到拥塞时切换到非最小路由。在饱和状态下,GAL 与最佳负载平衡的不经意路由的吞吐量相匹配。这结合了最小算法(低负载下的低延迟)和明显负载平衡算法(高饱和​​吞吐量)的最佳功能。虽然 GAL 在各种吞吐量和延迟指标上比任何其他已知的路由算法表现更好,但 GAL 存在四个严重问题。

2024-04-28 21:50:47 878

原创 【论文阅读】互连网络的负载平衡路由算法 (GOAL: A Load-Balanced Adaptive Routing Algorithm for Torus Networks)

总结自 A. Singh 的博士毕业论文 —— Load-Balanced Routing in Interconnection Networks介绍了一种用于网络 torus 的负载平衡、非最小自适应路由算法 GOAL,该算法在对抗流量模式上实现高吞吐量,同时保留良性模式的局部性。GOAL 匹配或超过 Valiant 算法在对抗模式上的吞吐量,并与 CHAOS、RLB 和最小路由的最坏情况性能相比提升 40%。

2024-04-27 17:06:10 1023

原创 【论文阅读】互连网络的负载平衡路由算法 (RLB & RLBth)

总结自A. Singh 的博士毕业论文。文章提出了用于 torus 网络的随机、非最小、不经意路由算法——**RLB和RLBth**

2024-04-24 23:03:39 1116 1

原创 【Interconnection Networks 互连网络】Torus 网络拓扑

Torus 和 Mesh 网络拓扑,又可以称为 k-ary n-cubes,在规则的 n 维网格中包裹着 N = k^n 个节点,每个维度都有 k 个节点,并且最近邻居之间有通道。k-ary n-cubes包含一系列网络,从 rings (n = 1) 到 binary n-cubes **(k = 2)**,也称为超立方体(hypercubes)。

2024-04-22 22:09:30 818

原创 【NoC片上网络 On-Chip Network】应用程序的网络流量 & 合成网络流量

在 MPSoC(多处理器片上系统) 中,应用程序的通信任务图(如图 3.8a 所示)决定了通过片上网络连接的各个 IP核 之间的流量。流量模型可以根据核心之间的平均流量来提取[156, 161]。这有助于为 MPSoC 运行的应用程序类别的流量驱动定制的网络拓扑和映射算法。任务图上的**边**确定网络链路的吞吐量要求,而芯片上**通信 IP 之间的路由器数量以及映射到相同链路的数据流流之间的争用**则确定网络延迟。

2024-04-19 16:59:53 777

原创 【Interconnection Networks 互连网络】Flattened Butterfly 扁平蝶形拓扑

扁平蝶形拓扑是一种经济高效的拓扑,适用于高基数路由器。扁平蝶形是通过组合(或扁平化)传统蝶形拓扑每行中的路由器而得到的一种拓扑,同时保留路由器间的连接。

2024-04-18 22:10:48 872 1

原创 【Interconnection Networks 互连网络】Dragonfly Topology 蜻蜓网络拓扑

Dragonfly 蜻蜓拓扑具有三层的分层网络,从小到大分别是路由器(router),组(group)和网络系统。

2024-04-18 18:05:01 1152

原创 【Booksim】Booksim2.0模拟器集成新拓扑

在Booksim2.0模拟器中集成新的拓扑

2024-04-15 16:24:32 895

原创 【Booksim】Booksim2.0安装编译

Boosim安装编译

2024-04-15 16:20:59 551

原创 【NoC片上网络 On-Chip Network】第六章 路由器微体系结构(2) 流水线Pipeline

典型处理器的逻辑流水线包括5级:取指令、译码、执行、内存操作和写回。根据时钟频率,这些逻辑分级都可以设计成物理流水线。相应地,路由器流水线可设计为:缓冲区写入(Buffer Write, BW)、路由计算(Route Computation, RC)、虚拟通道分配(Virtual-channel Allocation, VA)、开关分配(Switch Allocation, SA)、开关传输(Switch Traversal, ST)、链路传输(Link Traversal, LT)。路由器流水线如图6.1

2024-04-14 21:00:08 608

原创 【NoC片上网络 On-Chip Network】第六章 路由器微体系结构(1)

路由器的设计必须能够在有限的面积和功率限制下满足延迟和吞吐量要求;随着多核系统规模的扩大,这是设计人员面临的主要挑战。路由器的复杂性随着带宽需求的增加而增加;当不需要高吞吐量时,可以构建具有低面积和功率开销的非常简单的路由器(无流水线、支持虫洞(译文中此处为不支持虫洞,但原文中应为支持虫洞路由,虫洞路由以flit为粒度分配buffer和带宽,面积开销较小)、无 VC、有限的小缓冲区)。当片上网络的延迟和吞吐量需求提高时,就会出现挑战。路由器的微架构决定了其关键路径延迟,这会影响每跳延迟和整体网络延迟。路由、

2024-04-13 17:13:12 1531

原创 【NoC片上网络 On-Chip Network】第五章 流控制

流量控制(flow control)控制网络缓冲区和链路的分配。它确定缓冲区和链路何时分配给消息、分配的粒度以及如何在使用网络的许多消息之间共享这些资源。良好的流控制协议不会在资源分配中施加高开销,从而降低低负载下消息所经历的延迟,并通过实现跨消息的缓冲区和链接的有效共享来提高网络吞吐量。在确定数据包访问缓冲区(或完全跳过缓冲区访问)和在链路中传输的频率时,流量控制有助于确定网络能量和功耗。流量控制协议的实现复杂性包括路由器微体系结构的复杂性以及在路由器之间传递资源信息所需的布线开销。当消息注入网络时,它首

2024-04-11 23:14:47 1153

原创 【Gem5】获取构建教程

gem5架构模拟器提供了一个通过对底层硬件的行为进行建模来评估计算机系统的平台。它使研究人员能够模拟复杂计算机系统的性能和行为,包括CPU、内存系统和互连。这使得研究不同微架构和架构选择的性能以及不同工作负载的影响,而无需构建和测试真实系统。Gem5是一个开源的计算机架构模拟器,它结合了系统级架构和处理器微架构。Gem5的前身是密歇根大学的m5项目和威斯康星大学的GEMS项目。这两个项目于2011年合并,形成了现在的Gem5。

2024-04-10 22:24:21 874

原创 【DAC‘ 2022】Kite: A Family of Heterogeneous Interposer Topologies

出于说明目的,我们使用三种不同的链路长度(1-1 对角线、2 直线和 2-1 对角线)演示此策略,构建三种拓扑 - Kite-Small、Kite-Medium 和 Kite-Large 使用这些分别作为最长的链接。由此产生的拓扑如图 2 所示。一般来说,由于跳数的增加,随着核心数量的增加,数据包所经历的延迟也会增加。我们发现,具有较短链路的拓扑可以利用较高的工作频率,从而提供更好的延迟和更高的吞吐量。为此,我们定义了一个称为有效跳数 (Heff) 的指标作为设计我们提出的 NoI 拓扑的代理。

2024-04-10 21:18:21 819

原创 【科研相关知识】梯度下降算法(Gradient Descent)

梯度下降算法的基本思想是:在函数的梯度(或者说斜率)指向的方向上,函数值下降得最快。因此,如果我们想要找到函数的最小值,可以从函数的某个初始点出发,沿着梯度的反方向(因为我们要减小函数值)逐步迭代,最终达到函数的局部最小值点。小批量梯度下降是批量梯度下降和随机梯度下降的折中,每次更新使用一小部分(批量)样本来计算梯度,并根据平均梯度更新参数。批量梯度下降的更新规则考虑了所有样本的梯度信息,因此可以保证每次更新的方向是最优的,但计算量较大。随机梯度下降每次只使用一个随机样本来计算梯度,并根据该梯度更新参数。

2024-04-09 21:54:35 891

原创 【科研相关知识】Dijkstra算法

Dijkstra算法的基本思想是,从源点出发,逐步探索源点到其他各顶点的最短路径。算法使用了一个优先队列来维护所有待访问的顶点,并按照路径长度递增的顺序进行访问。算法执行过程中,一旦找到从源点到某个顶点的最短路径,就将这个顶点从优先队列中移除,并将这个最短路径长度作为该顶点的“标签”。Dijkstra算法是一种计算图中单源最短路径的算法,由荷兰计算机科学家艾兹赫尔·戴克斯特拉在1956年提出。基于上图分析 Dijkstra 算法的过程,找到节点A到其他任意节点的最短路径。

2024-04-08 23:06:35 804

原创 【HPCA‘ 2021】BoomGate: Deadlock Avoidandce in Non-Minimal Routing for High-Radix Networks

对于高基数拓扑的大型系统,通常使用虚拟通道VC来防止路由死锁,但深度缓冲区和VC的成本很高。这篇文章提出了BoomGate来避免大规模网络中的死锁,主要由两部分组成:受限的中间节点非最小路由 RINR机会流量控制 OFC这两部分都利用高基数网络的低直径的特性,同时最大化拓扑内的路径多样性。首先确定了全连接拓扑中的路由死锁是由非最小路由引起的,并限制非最小路由以确保没有额外虚拟通道的情况下避免死锁,提出算法RINR确保多路径同时实现负载平衡。

2024-04-07 17:55:19 746

原创 【工具或平台】Gem5编译

安装依赖sudo apt-get update可能需要安装:在编译时需要指定系统配置的缓存一致性协议:最后编译成功:

2024-04-06 11:58:09 413

原创 【平台或工具】WSL2

WSL2,全称Windows Subsystem for Linux 2,是微软为Windows 10和Windows 11操作系统提供的一个兼容层,它允许用户在Windows上直接运行GNU/Linux环境。WSL2在技术上是一个基于虚拟化的解决方案,它使用微软的Hyper-V虚拟化技术来创建一个真实的Linux内核,从而为用户提供一个接近原生Linux体验的环境。打开Microsoft Store,选择需要的的Linux分发版并下载,如ubuntu 22.04。将WSL2设置为默认版本。

2024-04-02 16:05:54 371

原创 【DATE 2023】The Next Era for Chiplet Innovation

The Next Era for Chiplet Innovation

2024-04-02 09:39:28 602

原创 【Chiplet】技术总结

这样的非常大的中介层会增加系统的成本,如果甚至超过了掩膜版的限制(800-900mm^2),也会产生额外的成本去支持缝合技术以构建更大的interposer.图a显示了用微凸块连接连个该芯片的图片,可以重复堆叠构建具有多个管芯的堆叠,图b显示了一个3D内存堆栈,其中包含8层DRAM芯片,所有芯片均通过TSV和微凸块互连。虽然经典的MCM将SoC划分为多个更小的且更具成本效益的组件,但AMD的chiplet方法更进一步,在不同工艺上实现不同的芯片,以更好地匹配每个chiplet的要求和约束。

2024-03-31 22:46:24 650

原创 【Microelectronics Reliability】An efficient thermal model of chiplet heterogeneous integration system

即证明纵向空间和横向空间的增加(更大的缓冲区有助于更好的冷却)可以降低结温,同时chiplet不能过于靠近芯片边缘,因为越来越靠近中介层的边缘,热量无法通过中介层传播到环境中,当靠近到边缘阈值的时候,散热条件开始恶化。(应保持到阈值以内)本热模型是一种具有指导意义的仿真工具,可用于执行异构集成系统的大规模热仿真。目前仿真工作提出的方法有望帮助设计人员检测潜在的温度相关热点,并在设计流程的早期阶段提高 CHI 系统的可靠性和鲁棒性。本文提出了一种有效的热模型来预测 CHI 2.5-D 系统的稳态温度分布。

2024-03-31 22:39:27 837

原创 【Micro 2014】NoC Architectures for Silicon Interposer Systems

硅中介层技术(“2.5D”堆叠)能够将多个内存堆栈与处理器芯片集成,从而大大增加封装内内存容量,同时很大程度上避免处理器上 3D 堆栈 DRAM 的热挑战。使用内插器来提供芯片之间的点对点互连。然而,这些互连仅利用中介层整体布线能力的一小部分,在这项工作中,我们探索如何利用这一未使用的资源。描述了一种扩展片上网络 (NoC) 架构的通用方法,以更好地利用硅中介层的额外路由资源。我们提出了一种非对称组织,将 NoC 分布在多核芯片和中介层上,其中每个子网在流量类型、拓扑、使用或不使用集中、直接与不使用

2024-03-30 13:22:23 612

原创 【Interconnection Networks 互连网络】Chapter 2. A simple interconnection network

然后,离开特定输出端口的数据包的概率pi+1等于不希望该输出端口的数据包的概率的补。(2.2) 应用方程2.2 n = 3次,分别用于网络的每个阶段,并瞬时忽略重新发送的数据包(p0 = λ),我们计算得到,在输入占空比为λ = 0.125(对应于速度增益为8)的情况下,三个交换阶段的输出占空比分别为0.119、0.114和0.109。然而,随着提供的流量的增加,丢弃很快就成为一个主要因素,如果不重新发送数据包,网络的吞吐量将远低于提供的流量。提供更多的加速可以增加设计的余量,并允许实现中的非理想情况。

2024-03-23 21:09:04 865

原创 【Interconnection Networks 互连网络】Chapter 1. 互连网络简介

数字系统在现代社会中无处不在。数字计算机用于执行从模拟物理系统到管理大型数据库再到准备文档等任务。数字通信系统中继电话呼叫、视频信号和互联网数据。音频和视频娱乐越来越多地以数字形式提供和处理。最后,从汽车到家电,几乎所有产品都是数字化控制的。数字系统由三个基本构建块组成:逻辑、存储器和通信。逻辑转换和组合数据——例如,通过执行算术运算或做出决策。内存存储数据以供以后检索,并及时移动它。通信将数据从一个位置移动到另一个位置。本书涉及数字系统的通信组件。

2024-03-23 13:25:36 1100 1

原创 【Interconnection Networks 互连网络】principles and practices of interconnection networks. preface

本书首先两个介绍章节,然后分为拓扑、路由、流量控制、路由器体系结构和性能五部分。

2024-03-22 23:18:20 539

原创 【工业前沿】NVIDIA NVLink-C2C

NVIDIA NVLink-C2C具体的相关信息NVLink-C2C的一些主要特性包括:NVIDIA NVLink-C2C用于定制芯片集成的超快芯片互连技术NVLink-C2C 将业界领先的 NVIDIA NVLink技术扩展到芯片之间的互连产品。这使得我们能够通过芯粒打造新一类集成产品,让 NVIDIA GPU、DPU 和 CPU 可以与定制芯片实现流畅互连。构建半定制芯片设计芯片之间互连产品的设计和布局对适当的功能、性能、能效、可靠性和制造产量至关重要。NVIDIA NVLin

2024-03-20 12:44:14 386

原创 【HPCA‘ 2008】Regional Congestion Awareness for Load Balance in Networks-on-Chip

较大的网络直径会降低 RCA 设计的有效性,因为在本地和传播竞争指标的权重为 50-50 的情况下,本地指标的小波动可能会超过强大的远程趋势。实验表明,RCA 在所有检查的工作负载中均达到或超过了传统自适应路由的性能,在 49 核 CMP 上运行的 SPLASH-2 基准测试中,平均延迟降低了 16%,最大延迟降低了 71%。在许多模拟工作负载中,4-VC RCA 设计能够匹配或超过 8-VC 本地路由器的性能,从而使 RCA 成为面积受限设计的有吸引力的选择。我们添加的两个新模块是拥塞状态聚合和传播。

2024-03-16 00:08:07 741

原创 【NoC片上网络 On-Chip Network】第四章 Routing 路由

维度顺序路由 (DOR) 维度顺序路由是确定性路由算法的一个例子,其中从节点 A 到 B 的所有确定性路由消息将始终经过相同的路径。虽然路由电路本身的功耗通常较低,但特定的路由算法会直接影响到跳数,从而大大影响到消息传输的能量消耗。ABCD代表路由器网络节点,折线代表数据包流动方向,从节点A南侧输入的数据包需要从节点A的东侧输出端口离开,但与此同时,另一个正在B节点西侧输入端口的数据包占据着AB之间的链路,依次类推,数据包之间的占用和依赖关系形成了一个环路,每个数据包都无法向前推进。

2024-03-06 19:14:38 750 1

原创 【NoC片上网络 On-Chip Network】第二章 NoC系统架构接口

逻辑上来说所有处理器都访问相同的共享内存,但物理上来说,需要使用缓存来提升性能,但在这种设计下缓存一致性的设计就变得复杂,缓存一致性协议决定了哪些通信是必要的。下图是一个典型的有64节点的共享内存CMP架构,每个节点都包括一个处理器、私有的L1缓存、以及一个可能是私有或共享的L2缓存,同时可能存在一个所有处理器共享的L3缓存。干预是由目录发送的消息,请求将修改后的数据传输到新的节点。协议可能需要几个不同的消息类别,一个类别中的请求消息不会导致同一类别中另一个请求消息的产生,但可以触发一个不同类别的消息。

2024-03-06 16:55:44 724 1

原创 【NoC片上网络 On-Chip Network】第一章 NoC导论

不断增加的功耗和单处理器架构性能回报递减的综合压力导致了多核芯片的出现。随着每一代新技术中可用的晶体管数量不断增加,再加上多核芯片的模块化设计降低了设计复杂性,这种多核浪潮将长久存在。这种多核浪潮可能会导致在单个芯片上集成数百甚至数千个核心。就片上集成组件的类型而言,异构性现在在许多细分市场中很常见,这进一步增加了片上互连结构的复杂性。除了处理器内核之外,片上结构也越来越需要互连嵌入式存储器、DSP 模块、视频处理器和图形处理器等加速器。

2024-03-06 14:05:05 334 1

原创 【工业前沿】AMD EPYC 系列处理器

第四代AMD EPYC 处理器的首要技术特点是基于业界领先的5nm的制程工艺,提供多达96颗“Zen 4”架构核心、192线程,以及最大384MB的L3缓存容量。IOD使用6nm制程工艺;第三代AMD EPYC 处理器继续采用了 9 个小芯片的 Chiplet 设计,在一个 SoC 里封装了 8 个运算 CCD 与 1 个 IO Die,每个 CCD 小芯片中的 8 个核心都能够同时共享 32MB 的缓存,以此来降低时延,同时对于那些需要用内存子系统比较密集的应用来说它可以有效地提高性能。

2024-03-04 16:34:07 601 1

原创 【NoC片上网络 On-Chip Network】第三章 拓扑

片上网络的拓扑确定了网络中节点和通道之间的物理布局和连接。拓扑对于网络的整体成本效率有重要影响。拓扑决定了一条消息的跳数以及每跳经过的互连线的物理距离。经过路由器和链路都会有一定的延迟和功耗。此外拓扑也决定了节点之间可用路径的总数。拓扑实现的难易程度取决于两个因素:1)每个节点上的链路数量(节点度)和在芯片上布局拓扑的难易程度(所需的导线长度和金属布线层数)总线是最简单的拓扑,但是其带宽受限,可扩展性受限。

2024-03-03 22:50:49 578

原创 《计算机体系结构量化研究方法(第六版)》个人总结——1.3 计算机体系结构的定义

《计算机体系结构量化研究方法(第六版)》个人总结——1.3 计算机体系结构的定义

2022-12-28 13:10:36 385 1

原创 《计算机体系结构量化研究方法(第六版)》个人总结——1.2 计算机的分类

《计算机体系结构量化研究方法(第六版)》整理笔记——1.2 计算机的分类

2022-12-25 22:51:43 976

原创 《计算机体系结构量化研究方法(第六版)》个人总结——1.1引言

《计算机体系结构量化研究方法(第六版)》整理笔记

2022-12-24 19:59:30 381

原创 C程序设计(第五版) 第三章(3)C语句和数据的输入输出

C语言——C语句和数据的输入输出

2022-11-25 21:01:16 452

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除