集成路由与调度如何提升时间敏感传输的最优性边界-CSDN博客

本文链接：https://blog.csdn.net/bit_mike/article/details/145784005

论文标题

**英文标题：**How Can the Integrated Routing and Scheduling Enhance Optimality Bounds of Time-Sensitive Transmission
**中文标题：**集成路由与调度如何提升时间敏感传输的最优性边界

作者信息

Zhenrui Cao，天津大学智能与计算学部，中国
Tie Qiu（通讯作者），东北大学计算机科学与工程学院，中国；同时也在天津大学智能与计算学部
Qingyong Deng，广西师范大学计算机科学与工程学院，中国
Haolin Liu，湘潭大学计算机科学与技术学院，中国
Xiaobo Zhou，天津大学计算机科学与技术学院，中国

论文出处

本文已被接受发表于《IEEE Communications Magazine》，DOI: 10.1109/MCOM.002.2400635。

摘要

时间敏感网络（TSN）通过严格确定性的时间触发（TT）流，为工业物联网中的多样化应用提供可靠的实时传输服务。TT流的端到端传输性能受到路由选择和带宽调度的共同影响，因此优化这两者对于提升TSN网络的整体服务质量至关重要。然而，现有方法通常在确定路由后再处理带宽调度，这种分离的决策方式可能导致潜在的传输冲突，例如提前选择了可用带宽不足的路由，从而无法为确定性流传输分配所需的带宽资源。为最大化TT流的传输能力，本文提出了一种基于多智能体深度强化学习（MADRL）的集成路由和调度方法（MAIRS）。通过网络软件化设计同步决策框架，MAIRS能够有效解决集成路由和调度问题，并显著提升TT流的传输性能。

引言

与传统尽力而为的以太网相比，TSN能够提供确定性、可靠且低延迟的传输服务，在工业物联网（IIoT）中支持实时应用。TT流在TSN网络中具有最高优先级，其延迟和抖动受到严格约束。因此，满足TT流的确定性要求对于提升工业TSN网络的实际效果至关重要。在TSN网络中，路由和调度方案决定了TT流的端到端传输性能。为了减少TT流之间的带宽占用冲突，路由必须根据传输需求和实时网络条件动态确定。调度则涉及为每个TT流分配专用的传输时间槽，以确保确定性的端到端传输。然而，现有方法由于依赖于链路级别的粗粒度指标（如带宽利用率）来确定路由，导致无法实现路由和调度的真正联合优化。相反，通过在时间槽粒度上同步确定路由和调度计划，可以有效消除异步决策模式中可能出现的冲突，从而充分发挥TT流传输的优化潜力。

背景：TSN网络中的流量管理

TSN由IEEE 802.1工作组开发，通过一系列标准为实时应用提供确定性延迟边界。IEEE 802.1Qcc提出的集中式管理架构通过软件定义的方法（如OpenFlow协议）实现工业TSN网络的灵活配置和动态管理。在TSN中，流量分为三个服务级别：TT、音频视频桥接（AVB）和尽力而为（BE）。TT流保证严格确定性，以支持具有严格延迟要求的实时工业应用。为了有效管理不同优先级的流量，TSN交换机的出口端口配备了八个队列，每个队列指定给特定的流量类型。TSN还定义了各种流量整形机制，如时间感知整形器（TAS），以确保关键TT流在不受低优先级流量意外抢占带宽的情况下经历可控的延迟。

TT流的路由与调度

近年来，许多研究聚焦于优化TSN网络中的流量传输，其中基于深度强化学习（DRL）的调度算法取得了最先进的性能。然而，这些算法仅关注优化流量传输的槽调度，忽略了路由对传输性能的重要影响。相反，一些研究提出了结合路由和调度的优化模型，但由于计算成本过高而不切实际。本文提出，通过在时间槽粒度上集成路由和调度，可以提升端到端传输优化的最优性边界。通过一个简单的例子进一步说明了集成路由和调度决策的必要性：在确保TT流的端到端确定性传输时，必须在沿路由的所有链路上分配无冲突的时间槽。如果在后续的时间槽调度阶段发现所选路由无法满足TT流的延迟要求，则会阻碍成功传输。因此，集成路由和调度可以防止路由和调度计划之间的脱节，确保基于对网络细粒度状态的全面理解，最大化端到端流量传输的优化潜力。

MAIRS：基于MADRL的集成路由与调度

端到端传输管理框架

本文设计了一个基于MADRL的端到端传输管理框架，利用TSN网络的软件定义管理，在集中式网络配置（CNC）中引入多智能体集群，作为生成TT流传输的集成路由和调度计划的决策核心。每个智能体逻辑上对应数据平面中的一个TSN交换机，在决策阶段，智能体将决定对应交换机处TT流的本地传输行为，包括路由分配和槽占用。传输管理过程分为五个步骤：解析流量信息、逐跳路由和调度决策、传输方案汇总、方案评估和部署。通过这种管理框架，智能体协作生成端到端的集成路由和调度计划，确保路由和调度方案之间的协调，有效解决潜在冲突，提升TT流传输的最优性边界。

协作MADRL的设计

智能体之间的逐跳协作符合多智能体马尔可夫决策过程（MAMDP）的特征，每个智能体的本地决策不仅受本地槽级网络状态的影响，还受前一个智能体决策的影响。为了实现有效的训练，使智能体能够高效协作以最大化可传输TT流的数量，本文设计了以下关键部分：

观测设计：每个智能体的输入包括全局观测和本地观测。全局观测包括TT流的属性、网络拓扑和链路带宽利用率等关键信息；本地观测则关注每个智能体的独特上下文，包括前一个智能体的动作链和本地跳传输的所有可选时间槽的详细带宽利用率。通过分析动作链，当前智能体可以做出关于集成路由分配和槽占用的明智决策。
动作设计：每个智能体的决策过程是独特的，因为每个智能体对应一个具有特定连接状态的交换机，导致每个智能体有不同的可用动作选项。智能体从这些选项中选择最适合的动作，形成一个本地连贯的路由和调度计划。然而，并非每个动作选项都是可行的，一些选择可能导致无法保证TT流的确定性传输，从而迫使当前TT流的逐跳决策过程提前终止。
奖励设计：在每一轮逐跳决策后，为所有参与的智能体提供统一反馈。如果端到端传输计划成功将TT流引导至目标目的地，则参与决策过程的每个智能体获得正反馈（x = 1）。相反，如果任何智能体触发错误情况，则所有参与的智能体将受到惩罚（x = –1）。此外，通过测量最重负载时间槽的带宽利用率（0 ≤ y ≤ 1）来评估网络状态。最终，智能体的奖励定义为 x – a · y，其中 0 ≤ a ≤ 1 是一个缩放因子。这种奖励函数设计旨在激励智能体考虑其动作对整体传输的广泛影响，同时促进网络负载平衡，避免可能导致TT流传输受损的瓶颈。
训练框架：本文使用基于演员-评论家架构的多智能体近端策略优化（MAPPO）进行协作训练。在训练过程中，每个智能体的评论家网络不仅使用自己的本地观测，还使用其他智能体的本地观测。这种信息共享使评论家网络能够更全面地理解当前流量传输的整体状态，从而更准确地估计评论家值。此外，MAPPO通过剪辑机制提高智能体策略更新的稳定性。
动作掩码的引入：在训练初期，随机初始化策略参数的智能体往往会选择导致错误情况的本地动作，从而阻碍智能体有效探索高效的传输策略。为缓解这一问题，本文引入动作掩码以掩盖无效的本地动作。具体来说，智能体会根据提供的动作掩码将无效本地动作的采样概率设置为零，从而防止其被选择。这种设计有助于避免错误，并使协作智能体能够学习更有效的集成路由和调度策略。

评估

本文选择DeepSch和JTRS作为对比算法，以评估MAIRS的性能优势。DeepSch使用DRL确定TT流的最优路径，然后根据“最早有效槽优先”原则分配时间槽；JTRS则通过启发式方法确定路由，并优先选择能有效减少端到端延迟的时间槽进行调度。这两种算法都考虑了路由和调度对TT流传输的影响，但与MAIRS不同的是，它们采用异步的路由和调度组合。通过对比，可以突出MAIRS通过集成路由和调度提升时间敏感传输最优性边界的能力。

实验设置

实验中，本文选择了Orion Crew Exploration Vehicle（CEV）网络作为基准拓扑结构，该网络集成了星型、树型和环型结构，以确保测试的全面性和代表性。由于缺乏公开的工业应用数据集，网络配置参考了以往研究中的典型设置。网络链路带宽统一设置为100 Mb/s，TT流随机分布在全网，数据大小范围为60到1500字节，传输周期随机选择自{3.6, 4.8, 6.0} ms。时间槽的持续时间选择为0.3、0.2和0.15 ms，以进行不同带宽管理粒度下的传输优化敏感性分析。MAIRS在不同时间槽持续时间条件下分别表示为MAIRS (0.3 ms)、MAIRS (0.2 ms)和MAIRS (0.15 ms)。DeepSch和JTRS在时间槽持续时间为0.2 ms时与MAIRS进行比较，分别表示为DeepSch (0.2 ms)和JTRS (0.2 ms)。在MAIRS中，通过网格搜索确定缩放因子a的值为0.25。训练过程中，智能体经过8000次迭代以实现策略收敛，学习率设置为0.003，批量大小为32个样本。为确保可靠性，DeepSch和JTRS遵循其各自的推荐参数设置。实验在30个独立的测试环境中进行，以评估不同算法的性能。

TT流传输性能对比

实验评估了在不同数量的TT流下，各算法的传输成功率和带宽利用率。随着TT流数量的增加和网络拥塞的加剧，传输成功率逐渐下降，而带宽资源的利用率则逐渐提高。MAIRS通过协作多智能体系统对端到端传输的集成优化，在时间槽持续时间为0.2 ms时，相比DeepSch和JTRS展现出更优越的传输性能。具体来说，当总流量从400增加到1000时，MAIRS的传输成功率比次优算法DeepSch提高了1.80%到12.74%。然而，当流量从1000增加到1600时，这一提升逐渐减少到8.14%。相应地，MAIRS在流量为1000时相比DeepSch实现了最大带宽利用率提升6.79%。随着流量从400增加到1000，流量之间的带宽竞争加剧，优化问题的复杂性增加，放大了MAIRS的高效优化能力，从而在这一阶段逐渐扩大了其优势。然而，当流量超过1000时，MAIRS仍然优于其他算法，但过多的流量导致的拥塞效应限制了进一步优化的潜力，导致其优势略有下降。JTRS的性能比DeepSch更差，主要是因为它严重依赖专家配置的启发式规则，导致对问题的适应性较差。

实验结果还表明，MAIRS在不同时间槽持续时间条件下的传输性能存在差异。随着流量从400增加到1600，MAIRS (0.3 ms)相比MAIRS (0.2 ms)的传输成功率分别提高了0.25%、1.36%、3.98%、6.18%、9.65%、8.01%和8.09%。与MAIRS (0.15 ms)相比，成功率分别提高了1.79%、6.02%、9.25%、12.83%、14.10%、12.68%和12.66%。一致地，较长的时间槽持续时间导致MAIRS的带宽利用率更高。相比之下，较短的时间槽持续时间通过分散和碎片化带宽资源，阻碍了高效利用，从而阻碍了传输优化。

结论与未来工作

本文提出了MAIRS，一种基于协作MADRL的集成路由与调度方法，用于优化TT流的传输能力。首先，本文引入了一个软件化的流量管理框架，旨在提升TT流端到端传输优化的最优性边界，同时解决路由和调度方案之间的潜在冲突。基于该框架，本文引入协作MADRL将具有广泛解空间的端到端传输优化问题分解为多个子问题。实验结果表明，与其它先进方法相比，MAIRS有效提升了可传输TT流的数量。未来的研究将继续增强工业TSN网络，以满足各种动态工业应用的多样化需求，推动TSN技术在实际工业环境中的应用和发展。