互连网络 interconnection network
文章平均质量分 93
正在輸入......
这个作者很懒,什么都没留下…
展开
-
Dragonfly 拓扑的路由算法
John Kim, William J. Dally 等人在 2008 年的 ISCA 中提出技术驱动、高度可扩展的 Dragonfly 拓扑。而文章中也提到了 针对 Dragonfly 拓扑的路由算法。本文对其中提到的路由算法进行汇总归纳。主要是讨论蜻蜓拓扑的最小和非最小路由算法。原创 2024-05-05 23:20:14 · 1110 阅读 · 0 评论 -
互连网络的负载平衡路由算法 (UGAL, Universal Globally Adaptive Load-Balancing 通用全局自适应负载平衡)
UGAL 是一种自适应路由算法,可保证最坏情况下的最佳性能,而不会牺牲良性(最佳情况)流量的任何局部性。UGAL 通过根据通道队列的拥塞情况自适应地决定何时最小化或非最小化路由数据包来实现此属性。UGAL 是通用的,因为它可以应用于任意对称拓扑。我们将 UGAL 应用于三种对称拓扑 - 全连接图、环面网络和立方体连接循环,并通过广泛的模拟证明了其对每种拓扑的有效性。原创 2024-04-29 23:07:21 · 945 阅读 · 0 评论 -
【论文阅读】互连网络的负载平衡路由算法 (CQR, Channel Queue Routing 通道队列路由)
总而言之,CQR 感知近似全局拥塞,并使用通道队列拥塞做出自适应全局路由决策,以最小化本地流量路由,同时非最小路由以在高负载下平衡困难流量模式。CQR 与 GAL 一样,可以匹配局部模式上的最小算法的吞吐量,以及困难模式上的负载平衡不经意算法的吞吐量——这是其他不做出全局自适应决策的算法无法实现的。通道队列路由克服了与 GAL 相关的许多问题。最重要的是,在需要非最小路由的负载上,CQR 的延迟远低于 GAL。这是因为在切换到非最小路由之前,它不需要将最小流量运行到饱和状态,从而导致高延迟。原创 2024-04-28 23:22:25 · 1319 阅读 · 0 评论 -
【论文阅读】互连网络的负载平衡路由算法 (GAL, Globally Adaptive Load-balancing 全局自适应负载平衡)
在低负载和良性流量模式下,GAL 最小限度地路由所有流量,因此与此类友好流量上的最小路由算法的低延迟和高吞吐量相匹配。在对抗性流量模式下,GAL 在低负载时进行最小路由,然后在注入队列检测到拥塞时切换到非最小路由。在饱和状态下,GAL 与最佳负载平衡的不经意路由的吞吐量相匹配。这结合了最小算法(低负载下的低延迟)和明显负载平衡算法(高饱和吞吐量)的最佳功能。虽然 GAL 在各种吞吐量和延迟指标上比任何其他已知的路由算法表现更好,但 GAL 存在四个严重问题。原创 2024-04-28 21:50:47 · 1277 阅读 · 0 评论 -
【论文阅读】互连网络的负载平衡路由算法 (GOAL: A Load-Balanced Adaptive Routing Algorithm for Torus Networks)
总结自 A. Singh 的博士毕业论文 —— Load-Balanced Routing in Interconnection Networks介绍了一种用于网络 torus 的负载平衡、非最小自适应路由算法 GOAL,该算法在对抗流量模式上实现高吞吐量,同时保留良性模式的局部性。GOAL 匹配或超过 Valiant 算法在对抗模式上的吞吐量,并与 CHAOS、RLB 和最小路由的最坏情况性能相比提升 40%。原创 2024-04-27 17:06:10 · 1032 阅读 · 0 评论 -
【论文阅读】互连网络的负载平衡路由算法 (RLB & RLBth)
总结自A. Singh 的博士毕业论文。文章提出了用于 torus 网络的随机、非最小、不经意路由算法——**RLB和RLBth**原创 2024-04-24 23:03:39 · 1152 阅读 · 1 评论 -
【Interconnection Networks 互连网络】Torus 网络拓扑
Torus 和 Mesh 网络拓扑,又可以称为 k-ary n-cubes,在规则的 n 维网格中包裹着 N = k^n 个节点,每个维度都有 k 个节点,并且最近邻居之间有通道。k-ary n-cubes包含一系列网络,从 rings (n = 1) 到 binary n-cubes **(k = 2)**,也称为超立方体(hypercubes)。原创 2024-04-22 22:09:30 · 879 阅读 · 0 评论 -
【NoC片上网络 On-Chip Network】第六章 路由器微体系结构(2) 流水线Pipeline
典型处理器的逻辑流水线包括5级:取指令、译码、执行、内存操作和写回。根据时钟频率,这些逻辑分级都可以设计成物理流水线。相应地,路由器流水线可设计为:缓冲区写入(Buffer Write, BW)、路由计算(Route Computation, RC)、虚拟通道分配(Virtual-channel Allocation, VA)、开关分配(Switch Allocation, SA)、开关传输(Switch Traversal, ST)、链路传输(Link Traversal, LT)。路由器流水线如图6.1原创 2024-04-14 21:00:08 · 630 阅读 · 0 评论 -
【NoC片上网络 On-Chip Network】第六章 路由器微体系结构(1)
路由器的设计必须能够在有限的面积和功率限制下满足延迟和吞吐量要求;随着多核系统规模的扩大,这是设计人员面临的主要挑战。路由器的复杂性随着带宽需求的增加而增加;当不需要高吞吐量时,可以构建具有低面积和功率开销的非常简单的路由器(无流水线、支持虫洞(译文中此处为不支持虫洞,但原文中应为支持虫洞路由,虫洞路由以flit为粒度分配buffer和带宽,面积开销较小)、无 VC、有限的小缓冲区)。当片上网络的延迟和吞吐量需求提高时,就会出现挑战。路由器的微架构决定了其关键路径延迟,这会影响每跳延迟和整体网络延迟。路由、原创 2024-04-13 17:13:12 · 1598 阅读 · 0 评论 -
【NoC片上网络 On-Chip Network】第五章 流控制
流量控制(flow control)控制网络缓冲区和链路的分配。它确定缓冲区和链路何时分配给消息、分配的粒度以及如何在使用网络的许多消息之间共享这些资源。良好的流控制协议不会在资源分配中施加高开销,从而降低低负载下消息所经历的延迟,并通过实现跨消息的缓冲区和链接的有效共享来提高网络吞吐量。在确定数据包访问缓冲区(或完全跳过缓冲区访问)和在链路中传输的频率时,流量控制有助于确定网络能量和功耗。流量控制协议的实现复杂性包括路由器微体系结构的复杂性以及在路由器之间传递资源信息所需的布线开销。当消息注入网络时,它首原创 2024-04-11 23:14:47 · 1188 阅读 · 0 评论 -
【NoC片上网络 On-Chip Network】第四章 Routing 路由
维度顺序路由 (DOR) 维度顺序路由是确定性路由算法的一个例子,其中从节点 A 到 B 的所有确定性路由消息将始终经过相同的路径。虽然路由电路本身的功耗通常较低,但特定的路由算法会直接影响到跳数,从而大大影响到消息传输的能量消耗。ABCD代表路由器网络节点,折线代表数据包流动方向,从节点A南侧输入的数据包需要从节点A的东侧输出端口离开,但与此同时,另一个正在B节点西侧输入端口的数据包占据着AB之间的链路,依次类推,数据包之间的占用和依赖关系形成了一个环路,每个数据包都无法向前推进。原创 2024-03-06 19:14:38 · 785 阅读 · 1 评论 -
【NoC片上网络 On-Chip Network】第二章 NoC系统架构接口
逻辑上来说所有处理器都访问相同的共享内存,但物理上来说,需要使用缓存来提升性能,但在这种设计下缓存一致性的设计就变得复杂,缓存一致性协议决定了哪些通信是必要的。下图是一个典型的有64节点的共享内存CMP架构,每个节点都包括一个处理器、私有的L1缓存、以及一个可能是私有或共享的L2缓存,同时可能存在一个所有处理器共享的L3缓存。干预是由目录发送的消息,请求将修改后的数据传输到新的节点。协议可能需要几个不同的消息类别,一个类别中的请求消息不会导致同一类别中另一个请求消息的产生,但可以触发一个不同类别的消息。原创 2024-03-06 16:55:44 · 764 阅读 · 1 评论 -
【NoC片上网络 On-Chip Network】第一章 NoC导论
不断增加的功耗和单处理器架构性能回报递减的综合压力导致了多核芯片的出现。随着每一代新技术中可用的晶体管数量不断增加,再加上多核芯片的模块化设计降低了设计复杂性,这种多核浪潮将长久存在。这种多核浪潮可能会导致在单个芯片上集成数百甚至数千个核心。就片上集成组件的类型而言,异构性现在在许多细分市场中很常见,这进一步增加了片上互连结构的复杂性。除了处理器内核之外,片上结构也越来越需要互连嵌入式存储器、DSP 模块、视频处理器和图形处理器等加速器。原创 2024-03-06 14:05:05 · 364 阅读 · 1 评论 -
【NoC片上网络 On-Chip Network】第三章 拓扑
片上网络的拓扑确定了网络中节点和通道之间的物理布局和连接。拓扑对于网络的整体成本效率有重要影响。拓扑决定了一条消息的跳数以及每跳经过的互连线的物理距离。经过路由器和链路都会有一定的延迟和功耗。此外拓扑也决定了节点之间可用路径的总数。拓扑实现的难易程度取决于两个因素:1)每个节点上的链路数量(节点度)和在芯片上布局拓扑的难易程度(所需的导线长度和金属布线层数)总线是最简单的拓扑,但是其带宽受限,可扩展性受限。原创 2024-03-03 22:50:49 · 611 阅读 · 0 评论 -
【NoC片上网络 On-Chip Network】应用程序的网络流量 & 合成网络流量
在 MPSoC(多处理器片上系统) 中,应用程序的通信任务图(如图 3.8a 所示)决定了通过片上网络连接的各个 IP核 之间的流量。流量模型可以根据核心之间的平均流量来提取[156, 161]。这有助于为 MPSoC 运行的应用程序类别的流量驱动定制的网络拓扑和映射算法。任务图上的**边**确定网络链路的吞吐量要求,而芯片上**通信 IP 之间的路由器数量以及映射到相同链路的数据流流之间的争用**则确定网络延迟。原创 2024-04-19 16:59:53 · 788 阅读 · 0 评论 -
【Interconnection Networks 互连网络】Flattened Butterfly 扁平蝶形拓扑
扁平蝶形拓扑是一种经济高效的拓扑,适用于高基数路由器。扁平蝶形是通过组合(或扁平化)传统蝶形拓扑每行中的路由器而得到的一种拓扑,同时保留路由器间的连接。原创 2024-04-18 22:10:48 · 921 阅读 · 4 评论 -
【Interconnection Networks 互连网络】Dragonfly Topology 蜻蜓网络拓扑
Dragonfly 蜻蜓拓扑具有三层的分层网络,从小到大分别是路由器(router),组(group)和网络系统。原创 2024-04-18 18:05:01 · 1206 阅读 · 0 评论 -
【DAC‘ 2022】Kite: A Family of Heterogeneous Interposer Topologies
出于说明目的,我们使用三种不同的链路长度(1-1 对角线、2 直线和 2-1 对角线)演示此策略,构建三种拓扑 - Kite-Small、Kite-Medium 和 Kite-Large 使用这些分别作为最长的链接。由此产生的拓扑如图 2 所示。一般来说,由于跳数的增加,随着核心数量的增加,数据包所经历的延迟也会增加。我们发现,具有较短链路的拓扑可以利用较高的工作频率,从而提供更好的延迟和更高的吞吐量。为此,我们定义了一个称为有效跳数 (Heff) 的指标作为设计我们提出的 NoI 拓扑的代理。原创 2024-04-10 21:18:21 · 825 阅读 · 0 评论 -
【HPCA‘ 2021】BoomGate: Deadlock Avoidandce in Non-Minimal Routing for High-Radix Networks
对于高基数拓扑的大型系统,通常使用虚拟通道VC来防止路由死锁,但深度缓冲区和VC的成本很高。这篇文章提出了BoomGate来避免大规模网络中的死锁,主要由两部分组成:受限的中间节点非最小路由 RINR机会流量控制 OFC这两部分都利用高基数网络的低直径的特性,同时最大化拓扑内的路径多样性。首先确定了全连接拓扑中的路由死锁是由非最小路由引起的,并限制非最小路由以确保没有额外虚拟通道的情况下避免死锁,提出算法RINR确保多路径同时实现负载平衡。原创 2024-04-07 17:55:19 · 754 阅读 · 0 评论 -
【Micro 2014】NoC Architectures for Silicon Interposer Systems
硅中介层技术(“2.5D”堆叠)能够将多个内存堆栈与处理器芯片集成,从而大大增加封装内内存容量,同时很大程度上避免处理器上 3D 堆栈 DRAM 的热挑战。使用内插器来提供芯片之间的点对点互连。然而,这些互连仅利用中介层整体布线能力的一小部分,在这项工作中,我们探索如何利用这一未使用的资源。描述了一种扩展片上网络 (NoC) 架构的通用方法,以更好地利用硅中介层的额外路由资源。我们提出了一种非对称组织,将 NoC 分布在多核芯片和中介层上,其中每个子网在流量类型、拓扑、使用或不使用集中、直接与不使用原创 2024-03-30 13:22:23 · 623 阅读 · 0 评论 -
【Interconnection Networks 互连网络】Chapter 2. A simple interconnection network
然后,离开特定输出端口的数据包的概率pi+1等于不希望该输出端口的数据包的概率的补。(2.2) 应用方程2.2 n = 3次,分别用于网络的每个阶段,并瞬时忽略重新发送的数据包(p0 = λ),我们计算得到,在输入占空比为λ = 0.125(对应于速度增益为8)的情况下,三个交换阶段的输出占空比分别为0.119、0.114和0.109。然而,随着提供的流量的增加,丢弃很快就成为一个主要因素,如果不重新发送数据包,网络的吞吐量将远低于提供的流量。提供更多的加速可以增加设计的余量,并允许实现中的非理想情况。原创 2024-03-23 21:09:04 · 882 阅读 · 0 评论 -
【Interconnection Networks 互连网络】Chapter 1. 互连网络简介
数字系统在现代社会中无处不在。数字计算机用于执行从模拟物理系统到管理大型数据库再到准备文档等任务。数字通信系统中继电话呼叫、视频信号和互联网数据。音频和视频娱乐越来越多地以数字形式提供和处理。最后,从汽车到家电,几乎所有产品都是数字化控制的。数字系统由三个基本构建块组成:逻辑、存储器和通信。逻辑转换和组合数据——例如,通过执行算术运算或做出决策。内存存储数据以供以后检索,并及时移动它。通信将数据从一个位置移动到另一个位置。本书涉及数字系统的通信组件。原创 2024-03-23 13:25:36 · 1113 阅读 · 1 评论 -
【Interconnection Networks 互连网络】principles and practices of interconnection networks. preface
本书首先两个介绍章节,然后分为拓扑、路由、流量控制、路由器体系结构和性能五部分。原创 2024-03-22 23:18:20 · 556 阅读 · 0 评论