正在輸入......-CSDN博客

原创【论文阅读】Slim Fly: A Cost Effective Low-Diameter Network Topology 一种经济高效的小直径网络拓扑

Slim Fly 一种高性能、经济高效的网络拓扑，它接近理论上的最佳网络直径。Slim Fly网络拓扑是基于一种图论方法，这种方法试图近似解决度-直径问题（degree-diameter problem）。度-直径问题是图论中的一个经典问题，指的是在给定图的度数（每个节点连接的边的数量）和直径（两个节点之间的最大最短路径长度）约束下，寻找具有最大节点数的图。换句话说，就是在限制网络中每个节点连接的数量（度）和网络的最大通信距离（直径）的条件下，设计一个尽可能大的网络。

2024-09-19 21:37:32 1675 3

原创【Latex】Latex 简介和安装

LaTeX 是一种基于排版的文档准备系统，广泛用于创建高质量的科学和数学文档。它的核心是 TeX 语言，由美国计算机科学家 Donald Knuth 在 1978 年开发。LaTeX 简化了文档的格式化过程，尤其是在处理复杂的公式、引用、表格、图表等方面，比传统的文字处理软件更为强大。LaTeX 的使用方法是通过编写 .tex 文件，这些文件包含了文档的内容和格式化指令，然后通过编译器（如 pdflatex）将 .tex 文件编译成 PDF、DVI、HTML 或其他格式的文档。

2024-08-26 20:10:30 1070

原创 Dragonfly 拓扑的路由算法

John Kim, William J. Dally 等人在 2008 年的 ISCA 中提出技术驱动、高度可扩展的 Dragonfly 拓扑。而文章中也提到了针对 Dragonfly 拓扑的路由算法。本文对其中提到的路由算法进行汇总归纳。主要是讨论蜻蜓拓扑的最小和非最小路由算法。

2024-05-05 23:20:14 1750

原创互连网络的负载平衡路由算法 (UGAL, Universal Globally Adaptive Load-Balancing 通用全局自适应负载平衡)

UGAL 是一种自适应路由算法，可保证最坏情况下的最佳性能，而不会牺牲良性（最佳情况）流量的任何局部性。UGAL 通过根据通道队列的拥塞情况自适应地决定何时最小化或非最小化路由数据包来实现此属性。UGAL 是通用的，因为它可以应用于任意对称拓扑。我们将 UGAL 应用于三种对称拓扑 - 全连接图、环面网络和立方体连接循环，并通过广泛的模拟证明了其对每种拓扑的有效性。

2024-04-29 23:07:21 1217

原创【科研相关知识】运筹学——排队论模型

运筹学是一门研究如何在有限资源条件下做出最优决策的学科。它结合了数学、统计学和计算机科学等多个领域的理论和方法，以解决各种实际问题，如生产调度、物流优化、资源分配、项目管理等。运筹学的目标是通过建立数学模型和运用优化算法，使得在面对复杂的决策问题时能够找到最佳的解决方案。排队系统基本组成部分：1. 输入过程(顾客按照怎样的规律到达)2. 排队规则(顾客按照一定规则排队等待服务)3. 服务机构(服务机构的设置、服务台的数量、服务的方式、服务时间分布等)

2024-04-29 14:07:44 3256

原创【论文阅读】互连网络的负载平衡路由算法 (CQR, Channel Queue Routing 通道队列路由)

总而言之，CQR 感知近似全局拥塞，并使用通道队列拥塞做出自适应全局路由决策，以最小化本地流量路由，同时非最小路由以在高负载下平衡困难流量模式。CQR 与 GAL 一样，可以匹配局部模式上的最小算法的吞吐量，以及困难模式上的负载平衡不经意算法的吞吐量——这是其他不做出全局自适应决策的算法无法实现的。通道队列路由克服了与 GAL 相关的许多问题。最重要的是，在需要非最小路由的负载上，CQR 的延迟远低于 GAL。这是因为在切换到非最小路由之前，它不需要将最小流量运行到饱和状态，从而导致高延迟。

2024-04-28 23:22:25 1492 1

原创【论文阅读】互连网络的负载平衡路由算法 (GAL, Globally Adaptive Load-balancing 全局自适应负载平衡)

在低负载和良性流量模式下，GAL 最小限度地路由所有流量，因此与此类友好流量上的最小路由算法的低延迟和高吞吐量相匹配。在对抗性流量模式下，GAL 在低负载时进行最小路由，然后在注入队列检测到拥塞时切换到非最小路由。在饱和状态下，GAL 与最佳负载平衡的不经意路由的吞吐量相匹配。这结合了最小算法（低负载下的低延迟）和明显负载平衡算法（高饱和吞吐量）的最佳功能。虽然 GAL 在各种吞吐量和延迟指标上比任何其他已知的路由算法表现更好，但 GAL 存在四个严重问题。

2024-04-28 21:50:47 1571 1

原创【论文阅读】互连网络的负载平衡路由算法 (GOAL: A Load-Balanced Adaptive Routing Algorithm for Torus Networks)

总结自 A. Singh 的博士毕业论文 —— Load-Balanced Routing in Interconnection Networks介绍了一种用于网络 torus 的负载平衡、非最小自适应路由算法 GOAL，该算法在对抗流量模式上实现高吞吐量，同时保留良性模式的局部性。GOAL 匹配或超过 Valiant 算法在对抗模式上的吞吐量，并与 CHAOS、RLB 和最小路由的最坏情况性能相比提升 40%。

2024-04-27 17:06:10 1280 1

原创【论文阅读】互连网络的负载平衡路由算法 (RLB & RLBth)

总结自A. Singh 的博士毕业论文。文章提出了用于 torus 网络的随机、非最小、不经意路由算法——**RLB和RLBth**

2024-04-24 23:03:39 1428 2

原创【Interconnection Networks 互连网络】Torus 网络拓扑

Torus 和 Mesh 网络拓扑，又可以称为 k-ary n-cubes，在规则的 n 维网格中包裹着 N = k^n 个节点，每个维度都有 k 个节点，并且最近邻居之间有通道。k-ary n-cubes包含一系列网络，从 rings (n = 1) 到 binary n-cubes **(k = 2)**，也称为超立方体(hypercubes)。

2024-04-22 22:09:30 3308

原创【NoC片上网络 On-Chip Network】应用程序的网络流量 & 合成网络流量

在 MPSoC(多处理器片上系统) 中，应用程序的通信任务图(如图 3.8a 所示)决定了通过片上网络连接的各个 IP核之间的流量。流量模型可以根据核心之间的平均流量来提取[156, 161]。这有助于为 MPSoC 运行的应用程序类别的流量驱动定制的网络拓扑和映射算法。任务图上的**边**确定网络链路的吞吐量要求，而芯片上**通信 IP 之间的路由器数量以及映射到相同链路的数据流流之间的争用**则确定网络延迟。

2024-04-19 16:59:53 1408

原创【Interconnection Networks 互连网络】Flattened Butterfly 扁平蝶形拓扑

扁平蝶形拓扑是一种经济高效的拓扑，适用于高基数路由器。扁平蝶形是通过组合(或扁平化)传统蝶形拓扑每行中的路由器而得到的一种拓扑，同时保留路由器间的连接。

2024-04-18 22:10:48 2002 4

原创【Interconnection Networks 互连网络】Dragonfly Topology 蜻蜓网络拓扑

Dragonfly 蜻蜓拓扑具有三层的分层网络，从小到大分别是路由器(router)，组(group)和网络系统。

2024-04-18 18:05:01 2152

原创【Booksim】Booksim2.0模拟器集成新拓扑

在Booksim2.0模拟器中集成新的拓扑

2024-04-15 16:24:32 1670 1

原创【Booksim】Booksim2.0安装编译

Boosim安装编译

2024-04-15 16:20:59 816

原创【NoC片上网络 On-Chip Network】第六章路由器微体系结构(2) 流水线Pipeline

典型处理器的逻辑流水线包括5级：取指令、译码、执行、内存操作和写回。根据时钟频率，这些逻辑分级都可以设计成物理流水线。相应地，路由器流水线可设计为：缓冲区写入(Buffer Write, BW)、路由计算(Route Computation, RC)、虚拟通道分配(Virtual-channel Allocation, VA)、开关分配(Switch Allocation, SA)、开关传输(Switch Traversal, ST)、链路传输(Link Traversal, LT)。路由器流水线如图6.1

2024-04-14 21:00:08 1421

原创【NoC片上网络 On-Chip Network】第六章路由器微体系结构(1)

路由器的设计必须能够在有限的面积和功率限制下满足延迟和吞吐量要求；随着多核系统规模的扩大，这是设计人员面临的主要挑战。路由器的复杂性随着带宽需求的增加而增加；当不需要高吞吐量时，可以构建具有低面积和功率开销的非常简单的路由器（无流水线、支持虫洞（译文中此处为不支持虫洞，但原文中应为支持虫洞路由，虫洞路由以flit为粒度分配buffer和带宽，面积开销较小）、无 VC、有限的小缓冲区）。当片上网络的延迟和吞吐量需求提高时，就会出现挑战。路由器的微架构决定了其关键路径延迟，这会影响每跳延迟和整体网络延迟。路由、

2024-04-13 17:13:12 3450

原创【NoC片上网络 On-Chip Network】第五章流控制

流量控制(flow control)控制网络缓冲区和链路的分配。它确定缓冲区和链路何时分配给消息、分配的粒度以及如何在使用网络的许多消息之间共享这些资源。良好的流控制协议不会在资源分配中施加高开销，从而降低低负载下消息所经历的延迟，并通过实现跨消息的缓冲区和链接的有效共享来提高网络吞吐量。在确定数据包访问缓冲区（或完全跳过缓冲区访问）和在链路中传输的频率时，流量控制有助于确定网络能量和功耗。流量控制协议的实现复杂性包括路由器微体系结构的复杂性以及在路由器之间传递资源信息所需的布线开销。当消息注入网络时，它首

2024-04-11 23:14:47 2424

原创【Gem5】获取构建教程

gem5架构模拟器提供了一个通过对底层硬件的行为进行建模来评估计算机系统的平台。它使研究人员能够模拟复杂计算机系统的性能和行为，包括CPU、内存系统和互连。这使得研究不同微架构和架构选择的性能以及不同工作负载的影响，而无需构建和测试真实系统。Gem5是一个开源的计算机架构模拟器，它结合了系统级架构和处理器微架构。Gem5的前身是密歇根大学的m5项目和威斯康星大学的GEMS项目。这两个项目于2011年合并，形成了现在的Gem5。

2024-04-10 22:24:21 1093

原创【DAC‘ 2022】Kite: A Family of Heterogeneous Interposer Topologies

出于说明目的，我们使用三种不同的链路长度（1-1 对角线、2 直线和 2-1 对角线）演示此策略，构建三种拓扑 - Kite-Small、Kite-Medium 和 Kite-Large 使用这些分别作为最长的链接。由此产生的拓扑如图 2 所示。一般来说，由于跳数的增加，随着核心数量的增加，数据包所经历的延迟也会增加。我们发现，具有较短链路的拓扑可以利用较高的工作频率，从而提供更好的延迟和更高的吞吐量。为此，我们定义了一个称为有效跳数 (Heff) 的指标作为设计我们提出的 NoI 拓扑的代理。

2024-04-10 21:18:21 1141

原创【科研相关知识】梯度下降算法(Gradient Descent)

梯度下降算法的基本思想是：在函数的梯度（或者说斜率）指向的方向上，函数值下降得最快。因此，如果我们想要找到函数的最小值，可以从函数的某个初始点出发，沿着梯度的反方向（因为我们要减小函数值）逐步迭代，最终达到函数的局部最小值点。小批量梯度下降是批量梯度下降和随机梯度下降的折中，每次更新使用一小部分（批量）样本来计算梯度，并根据平均梯度更新参数。批量梯度下降的更新规则考虑了所有样本的梯度信息，因此可以保证每次更新的方向是最优的，但计算量较大。随机梯度下降每次只使用一个随机样本来计算梯度，并根据该梯度更新参数。

2024-04-09 21:54:35 1131

原创【科研相关知识】Dijkstra算法

Dijkstra算法的基本思想是，从源点出发，逐步探索源点到其他各顶点的最短路径。算法使用了一个优先队列来维护所有待访问的顶点，并按照路径长度递增的顺序进行访问。算法执行过程中，一旦找到从源点到某个顶点的最短路径，就将这个顶点从优先队列中移除，并将这个最短路径长度作为该顶点的“标签”。Dijkstra算法是一种计算图中单源最短路径的算法，由荷兰计算机科学家艾兹赫尔·戴克斯特拉在1956年提出。基于上图分析 Dijkstra 算法的过程，找到节点A到其他任意节点的最短路径。

2024-04-08 23:06:35 887

原创【HPCA‘ 2021】BoomGate: Deadlock Avoidandce in Non-Minimal Routing for High-Radix Networks

对于高基数拓扑的大型系统，通常使用虚拟通道VC来防止路由死锁，但深度缓冲区和VC的成本很高。这篇文章提出了BoomGate来避免大规模网络中的死锁，主要由两部分组成：受限的中间节点非最小路由 RINR机会流量控制 OFC这两部分都利用高基数网络的低直径的特性，同时最大化拓扑内的路径多样性。首先确定了全连接拓扑中的路由死锁是由非最小路由引起的，并限制非最小路由以确保没有额外虚拟通道的情况下避免死锁，提出算法RINR确保多路径同时实现负载平衡。

2024-04-07 17:55:19 1018

原创【工具或平台】Gem5编译

安装依赖sudo apt-get update可能需要安装：在编译时需要指定系统配置的缓存一致性协议:最后编译成功：

2024-04-06 11:58:09 556

原创【平台或工具】WSL2

WSL2，全称Windows Subsystem for Linux 2，是微软为Windows 10和Windows 11操作系统提供的一个兼容层，它允许用户在Windows上直接运行GNU/Linux环境。WSL2在技术上是一个基于虚拟化的解决方案，它使用微软的Hyper-V虚拟化技术来创建一个真实的Linux内核，从而为用户提供一个接近原生Linux体验的环境。打开Microsoft Store，选择需要的的Linux分发版并下载，如ubuntu 22.04。将WSL2设置为默认版本。

2024-04-02 16:05:54 969

原创【DATE 2023】The Next Era for Chiplet Innovation

The Next Era for Chiplet Innovation

2024-04-02 09:39:28 760

原创【Chiplet】技术总结

这样的非常大的中介层会增加系统的成本，如果甚至超过了掩膜版的限制（800-900mm^2），也会产生额外的成本去支持缝合技术以构建更大的interposer.图a显示了用微凸块连接连个该芯片的图片，可以重复堆叠构建具有多个管芯的堆叠，图b显示了一个3D内存堆栈，其中包含8层DRAM芯片，所有芯片均通过TSV和微凸块互连。虽然经典的MCM将SoC划分为多个更小的且更具成本效益的组件，但AMD的chiplet方法更进一步，在不同工艺上实现不同的芯片，以更好地匹配每个chiplet的要求和约束。

2024-03-31 22:46:24 2180

原创【Microelectronics Reliability】An efficient thermal model of chiplet heterogeneous integration system

即证明纵向空间和横向空间的增加（更大的缓冲区有助于更好的冷却）可以降低结温，同时chiplet不能过于靠近芯片边缘，因为越来越靠近中介层的边缘，热量无法通过中介层传播到环境中，当靠近到边缘阈值的时候，散热条件开始恶化。（应保持到阈值以内）本热模型是一种具有指导意义的仿真工具，可用于执行异构集成系统的大规模热仿真。目前仿真工作提出的方法有望帮助设计人员检测潜在的温度相关热点，并在设计流程的早期阶段提高 CHI 系统的可靠性和鲁棒性。本文提出了一种有效的热模型来预测 CHI 2.5-D 系统的稳态温度分布。

2024-03-31 22:39:27 1044

原创【Micro 2014】NoC Architectures for Silicon Interposer Systems

硅中介层技术（“2.5D”堆叠）能够将多个内存堆栈与处理器芯片集成，从而大大增加封装内内存容量，同时很大程度上避免处理器上 3D 堆栈 DRAM 的热挑战。使用内插器来提供芯片之间的点对点互连。然而，这些互连仅利用中介层整体布线能力的一小部分，在这项工作中，我们探索如何利用这一未使用的资源。描述了一种扩展片上网络 (NoC) 架构的通用方法，以更好地利用硅中介层的额外路由资源。我们提出了一种非对称组织，将 NoC 分布在多核芯片和中介层上，其中每个子网在流量类型、拓扑、使用或不使用集中、直接与不使用

2024-03-30 13:22:23 906

原创【Interconnection Networks 互连网络】Chapter 2. A simple interconnection network

然后，离开特定输出端口的数据包的概率pi+1等于不希望该输出端口的数据包的概率的补。(2.2) 应用方程2.2 n = 3次，分别用于网络的每个阶段，并瞬时忽略重新发送的数据包（p0 = λ），我们计算得到，在输入占空比为λ = 0.125（对应于速度增益为8）的情况下，三个交换阶段的输出占空比分别为0.119、0.114和0.109。然而，随着提供的流量的增加，丢弃很快就成为一个主要因素，如果不重新发送数据包，网络的吞吐量将远低于提供的流量。提供更多的加速可以增加设计的余量，并允许实现中的非理想情况。

2024-03-23 21:09:04 1122

原创【Interconnection Networks 互连网络】Chapter 1. 互连网络简介

数字系统在现代社会中无处不在。数字计算机用于执行从模拟物理系统到管理大型数据库再到准备文档等任务。数字通信系统中继电话呼叫、视频信号和互联网数据。音频和视频娱乐越来越多地以数字形式提供和处理。最后，从汽车到家电，几乎所有产品都是数字化控制的。数字系统由三个基本构建块组成：逻辑、存储器和通信。逻辑转换和组合数据——例如，通过执行算术运算或做出决策。内存存储数据以供以后检索，并及时移动它。通信将数据从一个位置移动到另一个位置。本书涉及数字系统的通信组件。

2024-03-23 13:25:36 1619 1

原创【Interconnection Networks 互连网络】principles and practices of interconnection networks. preface

本书首先两个介绍章节，然后分为拓扑、路由、流量控制、路由器体系结构和性能五部分。

2024-03-22 23:18:20 956

原创【工业前沿】NVIDIA NVLink-C2C

NVIDIA NVLink-C2C具体的相关信息NVLink-C2C的一些主要特性包括：NVIDIA NVLink-C2C用于定制芯片集成的超快芯片互连技术NVLink-C2C 将业界领先的 NVIDIA NVLink技术扩展到芯片之间的互连产品。这使得我们能够通过芯粒打造新一类集成产品，让 NVIDIA GPU、DPU 和 CPU 可以与定制芯片实现流畅互连。构建半定制芯片设计芯片之间互连产品的设计和布局对适当的功能、性能、能效、可靠性和制造产量至关重要。NVIDIA NVLin

2024-03-20 12:44:14 1147

原创【HPCA‘ 2008】Regional Congestion Awareness for Load Balance in Networks-on-Chip

较大的网络直径会降低 RCA 设计的有效性，因为在本地和传播竞争指标的权重为 50-50 的情况下，本地指标的小波动可能会超过强大的远程趋势。实验表明，RCA 在所有检查的工作负载中均达到或超过了传统自适应路由的性能，在 49 核 CMP 上运行的 SPLASH-2 基准测试中，平均延迟降低了 16%，最大延迟降低了 71%。在许多模拟工作负载中，4-VC RCA 设计能够匹配或超过 8-VC 本地路由器的性能，从而使 RCA 成为面积受限设计的有吸引力的选择。我们添加的两个新模块是拥塞状态聚合和传播。

2024-03-16 00:08:07 883

原创【NoC片上网络 On-Chip Network】第四章 Routing 路由

维度顺序路由 (DOR) 维度顺序路由是确定性路由算法的一个例子，其中从节点 A 到 B 的所有确定性路由消息将始终经过相同的路径。虽然路由电路本身的功耗通常较低，但特定的路由算法会直接影响到跳数，从而大大影响到消息传输的能量消耗。ABCD代表路由器网络节点，折线代表数据包流动方向，从节点A南侧输入的数据包需要从节点A的东侧输出端口离开，但与此同时，另一个正在B节点西侧输入端口的数据包占据着AB之间的链路，依次类推，数据包之间的占用和依赖关系形成了一个环路，每个数据包都无法向前推进。

2024-03-06 19:14:38 2310 3

原创【NoC片上网络 On-Chip Network】第二章 NoC系统架构接口

逻辑上来说所有处理器都访问相同的共享内存，但物理上来说，需要使用缓存来提升性能，但在这种设计下缓存一致性的设计就变得复杂，缓存一致性协议决定了哪些通信是必要的。下图是一个典型的有64节点的共享内存CMP架构，每个节点都包括一个处理器、私有的L1缓存、以及一个可能是私有或共享的L2缓存，同时可能存在一个所有处理器共享的L3缓存。干预是由目录发送的消息，请求将修改后的数据传输到新的节点。协议可能需要几个不同的消息类别，一个类别中的请求消息不会导致同一类别中另一个请求消息的产生，但可以触发一个不同类别的消息。

2024-03-06 16:55:44 1574 4

空空如也

空空如也