【HPCA‘ 2008】Regional Congestion Awareness for Load Balance in Networks-on-Chip

Regional Congestion Awareness for Load Balance in Networks-on-Chip

片上网络负载平衡的区域拥塞感知 HPCA’2008

背景和动机

文章背景片上互连网络 (NOC) 正在迅速取代芯片多处理器和片上系统设计中的其他形式的互连。

  1. 摩尔定律稳步提高了片上晶体管的密度,并实现了在单个芯片上集成数十个组件。这些组件包括多芯片处理器 (CMP) 中的常规处理器阵列和缓存组以及片上系统 (SoC) 设计中的异构资源。更大程度一体化的成果之一是互连网络已开始取代共享总线和其他以长全局线路为特征的通信形式。片上网络 (NOC) 的扩展能力比传统形式的片上互连更好,并且具有卓越的性能和容错特性。
  2. NOC 可以使用大位宽的最近邻点对点链路来构建,从而促进自然流水线、高带宽通信。迄今为止,大多数 NOC 都采用了简单的拓扑,例如二维网格和环,部分原因是这两种设计都与平面硅制造工艺良好匹配并支持短链路长度。
  3. 为了最大限度地减少路由器开销,NOC 倾向于使用简单的路由器设计,其中包括有限的虚拟通道、每个虚拟通道的浅 flit 缓冲区、较短的路由器管道阶段以及具有有限数量 flit 的消息。

现有的互连网络使用 oblivious 或自适应的路由算法来确定数据包到达其目的地所采取的路由。尽管实现复杂性较高,但在面对不均匀或突发流量时,与不经意的策略相比,自适应路由具有更好的容错特性,提高了网络吞吐量,并减少了延迟。

然而,自适应路由可能会通过贪婪的本地决策扰乱固有的全局负载平衡,从而损害性能。为了改善适应路由的负载平衡,我们提出了区域拥塞感知(RCA),这是一种改善全局网络平衡的轻量级技术。 RCA不仅仅依赖于本地拥塞信息,还利用相邻路由器之外的部分网络拥塞的路由策略。

  1. 现有自适应路由器性能的关键障碍是对全局网络状态的无知,导致路由器输出端口选择仅基于本地可用的拥塞估计。这种短视的路由决策往往会破坏许多流量模式中的全局负载平衡。
  2. 在本文中,我们介绍了区域拥塞感知(RCA),这是一种以可扩展的方式在网络中传播拥塞信息的方法,提高了自适应路由器分散网络负载的能力。
  3. 将本地计算的拥塞指标与从邻居传播的拥塞指标聚合起来,然后再将其传输到上游路由器,并且附有权重
  4. 非最小自适应路由有潜力改善负载平衡,超越最小路由的限制,但代价是实现更大的复杂性以及可能更高的每数据包延迟和能量。因此,将评估限制在最小路由上,但这里提出的一般原则也可以应用于非最小路由网络。

实验表明,RCA 在所有检查的工作负载中均达到或超过了传统自适应路由的性能,在 49 核 CMP 上运行的 SPLASH-2 基准测试中,平均延迟降低了 16%,最大延迟降低了 71%。与基线自适应路由器相比,RCA 的逻辑和布线开销可以忽略不计.

图 1 展示了路由策略的分类。根据是否考虑输出链路需求,自适应路由策略可以分为拥塞忽略策略和拥塞感知策略。
在这里插入图片描述

  1. 拥塞感知路由策略可以根据它们是纯粹依赖本地拥塞信息还是考虑网络中其他点的拥塞状态来进一步分类。在这种情况下,本地信息被定义为在给定节点处容易获得的信息,表示该节点或其直接邻居的状态。物理链路另一端的可用虚拟通道或缓冲区的计数也是本地信息。

创新点

  1. 将非本地信息定义为源自节点的直接邻居之外的信息。据我们所知,现有的自适应路由互连网络评估要么忽略拥塞,要么在输出端口选择中仅考虑本地拥塞指标。区域拥塞意识(RCA)是第一个对非本地信息的效用进行全面评估的工作,以改善完全自适应最小路由网络的动态负载平衡特性。

  2. DOR 路由器微架构

    1. 规范的 NOC 虚拟通道路由器首先由 Peh 和 Dally 描述,该路由器采用输入队列,有 5 个端口,其中 4 个是网络端口,1 个是注入端口。
    2. 路由器的关键架构元素包括虚拟通道 FIFO、路由计算单元、VC 分配逻辑、交叉开关分配逻辑和交叉开关本身。
    3. 管道由四个阶段组成:路由计算(RT)、VC分配(VA)、交换机分配(SA)和交换机遍历(ST)。 (缓冲区写入BW 链路遍历LT)
      1. 路由前瞻:提前一跳执行路由计算,将所需要的阶段数从四级减小到三级
      2. 推测 speculation:允许VA 和SA重叠,如果两个分配请求都被批准,则交换机分配的延迟将被隐藏。和路由前瞻结合时,推测在最好的情况下流水线减少到两个周期
      3. 如果将VA SA 和 ST并行执行,乐观地可以将路由器延迟减少到单个周期。
      4. 推测仅在低负载时才会成功,错误会受到一个周期的惩罚。
    4. 本文使用基于预选的两周期自适应路由器设计
  3. 自适应路由器微架构
    在这里插入图片描述

    1. 图 2 显示了基于 Kim 等人的设计的两级自适应路由器的管道,其中具有自适应阴影所需的额外逻辑。路由器使用下游节点处的空闲缓冲区计数来进行拥塞估计。每个端口的计数在每个周期更新并存储在四个拥塞值寄存器 (CVR) 中。在每个周期开始时,端口预选逻辑会读取 CVR,并通过寄存器之间的简单成对比较来计算每个象限的首选输出端口。具有更多空闲缓冲区的端口是首选输出,并且该结果被锁存在首选输出寄存器(POR)中。
    2. 这种路由器设计可以推广到任何可以快速计算其值的拥塞度量。例如,使用空闲 VC 计数而不是缓冲区可用性作为拥塞度量
  4. 拥塞信息指标

    1. 考虑三个原子拥塞指标:空闲虚拟通道数、可用缓冲区数和交叉开关需求。所有三个指标都提供了有关下游争用的一些信息,并且在任何合理的虚拟通道路由器设计中都可以轻松使用。空闲虚拟通道 (vc):空闲虚拟通道的计数首先由 Dally 和 Aoki 提出作为拥塞指标,他们指出分配的 VC 越少意味着给定链路上的复用越少。空闲缓冲区 (bf):Kim 等人。在其低延迟自适应路由器中使用了空闲缓冲区的计数。缓冲区计数指示下游节点的输入端口所经历的背压量。交叉开关需求 (xb):交叉开关需求是我们提出和评估的一个新指标,用于衡量给定输出端口的活跃请求者数量。交叉开关需求捕获新数据包可能经历的实际通道复用量。对输出端口的多个并发请求表明存在聚合流量模式,这可能是瓶颈。由于我们的路由器采用推测,因此推测和非推测的切换请求都会被计算在内。
    2. 复合指标:每个原子指标都有优点和缺点。我们提出了原子指标的简单配对,以发挥它们的优点并消除它们的缺点。原子度量的三种组合是: 空闲 VC 和空闲缓冲区 (vc bf );免费 VC 和交叉开关需求 (xb vc);以及空闲缓冲区和交叉开关需求 (xb bf )。我们使用这些拥塞指标在各种工作负载中比较了本地自适应路由器的性能。在非组合指标中,bf 和 vc 表现相似,而 xb 表现稍好。组合指标通常优于非组合指标,其中 xb vc 在最广泛的工作负载中表现最佳。
  5. RCA variants
    在这里插入图片描述

    研究了具有不同性价比特征的三种有前途的 RCA 变体。

    1. RCA 1D:这种简单的设计沿着每个维度独立地聚合和传播拥塞信息。 RCA 1D 提供了沿数据包路由象限边界轴的出色可视性,但无法直接了解象限中间的网络状态。图 3(a) 显示了 RCA 1D 如何向西方向传播拥塞状态。虽然仅提供有限的网络可见性,但此方法在 RCA 设计空间中具有最低的实现复杂性。
    2. RCA Fanin:RCA Fanin 的目标是以最小的逻辑开销提供比 RCA 1D 更多的网络状态信息。 RCA Fanin 通过将传播轴上的拥塞估计值与正交方向上的拥塞估计值进行聚合,提供了区域拥塞的粗略视图,如图 3(b) 所示。虽然 RCA Fanin 涵盖的网络区域比 RCA 1D 的单向拥塞向量大得多,但它还通过组合来自互斥路由象限的信息将噪声引入其估计中。
    3. RCA Quadrant:如图 3© 所示,RCA 象限旨在通过为每个网络象限维护单独的拥塞值来最大限度地提高拥塞估计的准确性。与 RCA 1D 相比,这样做可以减少因组合 RCA Fanin 中存在的互斥路由区域的信息而产生的噪声,同时最大化覆盖范围。由于每个端口属于两个不同的象限,因此必须在每个网络接口处接收、更新和传播两个单独的拥塞值,从而导致逻辑和布线复杂性的开销是 RCA 1D 或 RCA Fanin 的两倍
  6. RCA 路由器
    在这里插入图片描述

    1. 图 4 显示了对 RCA 2 级自适应路由器的修改。我们添加的两个新模块是拥塞状态聚合和传播。
      在这里插入图片描述

    2. 图5(a)详细显示了聚合模块。聚合模块的输入来自下游路由器和本地 CVR,反映本地拥塞估计。聚合逻辑组合两个拥塞值。最简单的权重分配(50-50)是在各种基准测试中表现最一致的。因此,聚合是一个简单的问题,即找到本地和非本地值的。

    3. 5(b) 详细介绍了 RCA Fanin 的传播模块。

实验评估及结论

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  1. 对两周期路由器微体系结构进行建模。路由器模型用于收集第 3.3 节中提出的拥塞指标,并支持所有 RCA 变体。我们测量了三种基线架构的性能:(1)DOR,一个维度有序的不经意路由器; (2) Local,使用vc拥塞度量的本地自适应路由器; (3) Local Best,这是一个使用我们的 xb vc 组合拥塞度量的自适应路由器。 RCA 1D、RCA Fanin 和 RCA Quadrant 也使用 xb vc 拥塞指标。
    在这里插入图片描述

  2. 更少的虚拟通道以及更少的 flit 缓冲区会降低各种争用指标的分辨率,并导致 RCA 性能下降。另一个问题是由于 Y 方向存在逸出 VC 导致虚​​拟通道利用率不平衡。逃逸 VC 是为网络遍历最后一段的数据包保留的,不能以其他方式使用。我们的争用指标没有考虑到这些 VC 的特殊状态,最终会提供一个误导性的资源可用性图景。随着 VC 数量的减少,预留 VC 对拥塞估计准确性的衰减效应会被放大,模拟每个物理信道两个 VC 的实验证实了这一趋势。

  3. RCA 在贪婪的本地决策可能会损害全局负载平衡的工作负载(例如位补码流量)上也表现良好。当网络直径较大或拥塞高度短暂时,RCA 的影响会降低。大的网络直径会降低 RCA 设计的有效性,因为在本地和传播竞争指标的权重为 50-50 的情况下,本地指标的小波动可能会超过强大的远程趋势。为了提高 RCA 在大型网格中的性能,人们可能会考虑调整局部与非局部权重,增加 RCA 位宽以获得更大的可视性,或使用集中来减小网络直径。

  4. RCA 的面积开销已经非常低,我们发现与传统的自适应路由器相比,RCA 可以减少路由器面积要求。在许多模拟工作负载中,4-VC RCA 设计能够匹配或超过 8-VC 本地路由器的性能,从而使 RCA 成为面积受限设计的有吸引力的选择。

  • 15
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

正在輸入......

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值