深度强化学习路由优化、流量工程有关论文笔记-CSDN博客

本文链接：https://blog.csdn.net/comekeywords/article/details/129094633

A_Multi-Task-Learning-Based_Transfer_Deep_Reinforcement_Learning_Design_for_Autonomic_Optical_Networks

概要

研究了一种用于自主光网络的MTL（多任务学习）辅助transfer DRL设计方法。

应用在：不同拓扑的RMSA代理之间的知识转移，知识从RMSA代理转移到其他服务提供代理

方法

思路

方法一

直接将源任务网络参数复制到目标任务网络参数，而将其余的参数随机初始化。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-r8mPPvAT-1676643449107)(D:\homework\note\机器学习\论文.assets\image-20230113125149311.png)]

方法二（论文使用）

将多个源任务（示例中的任务MA和MC）的DNN集成到一个MTL代理中，共享一个共同的神经网络，而特定于任务的神经网络块保持不变。MTL代理首先被训练为同时掌握MA和MC，以一种类似于直接转移方案的方式转移到MB。

MTL利用多个源任务中获得的知识，可以跨任务学习和传输更泛化的知识，以提高传输（训练？）效率。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cvKCErY3-1676643449108)(D:\homework\note\机器学习\论文.assets\image-20230113125103364.png)]

训练方法

MTL代理可以通过DRL或监督学习方法进行训练。

DRL

通过传统DRL方法训练，MTL代理可以为每个任务维护一个单独的体验缓冲区。在每个训练步骤中，代理选择与MA或MC相关的样本，并只调整相关的参数集。

然而，使用DRL方法成功训练一个MTL代理可能是具有挑战性的。

因为一个任务的梯度可能会干扰其他任务的训练，影响单个任务的表现，甚至导致任务占主导地位。此外，这种方法需要一个特定的MTL环境（通常不可用），在该环境中，多个源任务同时存在，并以大致相同的速度学习（即在每个周期期间产生相同数量级的梯度）

监督学习

灵感来自于[31]中提出的actor-mimic方法。

首先为MA和MC独立训练DRL代理，然后从每个源任务中在学习到的策略上采样一个长时间的状态轨迹D，用适当的padding来扩充获得的数据实例，以使它们适合MTL代理的DNN结构。

用D训练图2(b)中的DNN（通过最小化给出的总损失）。使MTL代理同时模拟MA和MC学习到的策略和价值函数，从而掌握这两项任务。

监督学习使算法只依赖现有的DRL框架，可以自由地组合不同的源任务。

思考

疑问

在不同任务间进行迁移学习的方法是否有价值有待考量，迁移学习或许能小幅提高DRL的初始性能，但需要人为设计具有交集的状态空间，将不同的网络参数分割开，性价比可能有点低。

可取

在通用的状态表示和特征提取下，研究同一任务、不同拓扑的知识转移。用于应对网络状态突然改变的情况，提高模型适应能力。

Development of Reinforcement Learning-Based Traffic Predictive Route Guidance Algorithm Under Uncertain Traffic Environment

概要

未来的交通状况仍存在不确定性，特别是在异常事件造成的非周期性交通拥堵中。

为了实现不确定交通条件下的可靠导航服务，本研究开发了一种基于强化学习的交通预测车辆路由（RL-TPVR）算法。

该算法通过在强化学习方案中加入预测状态表示和预测奖励建模来减少OD旅行时间的变化。

方法

流量预测路由功能是在一个批处理过程中实现的。

在RL-TPVR的MDP公式中考虑了流量动态，这使所提出的算法能够识别各种流量模式。

通过将预测奖励纳入奖励函数来缓解旅行时间的变化，这使得该算法能够在不确定的交通情况下提供最短的旅行时间路径。

trick

强化学习方法使用基于PER算法的DDQN算法，旨在处理与DQN相关的高估问题。

DDQN将原始DQN目标中的最大操作分解为动作选择和评价。

基于TDerror，为了对重放缓冲区中的转换进行优先排序，在PDDQN中进一步考虑了使用重要性采样技术的非均匀采样。

预测状态

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-J7EakUPH-1676643449109)(D:\homework\note\机器学习\论文.assets\image-20230117154008071.png)]

分别表示：[时间步长t时所处链路长度，代理在时间步长t处所在链路的自由流速度，预测的平均速度，代理在时间步t时的估计位置，连接到在时间步t时代理所在的链路的后续链路的一组预测平均速度]

预测奖励

奖励设置：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dYKiVqIV-1676643449110)(D:\homework\note\机器学习\论文.assets\image-20230117153703508.png)]

预测奖励r旨在考虑旅行时间的变异性，是判断估计旅行时间和实际旅行时间之间是否存在可接受差距的关键标准

实验

在不确定交通条件下的性能，在各种交通需求模式下的周期性和非周期性交通拥堵情况

通过数值研究来考虑，包括绩效差距分析、案例研究和比较研究。

RL-TPVR奖励功能中涉及的预测奖励，通过减轻旅行时间变化的影响，有助于提供稳健的路线指导

尽管RL-TPVR的预测能力较差，但它在减少与不确定的交通条件相关的出行时间方面具有显著的优势，特别是在非周期性交通拥堵的情况下。

未来工作

改进深度学习模型。

编程代码优化或并行计算技术，以加速该系统的收敛速度。

大规模城市道路网对RL-TPVR的可扩展性；多车导航服务的路线规划。

Mitigating Routing Update Overhead for Traffific Engineering by Combining Destination-Based Routing With Reinforcement Learning

FlexEntry：对于每个流量矩阵，只更新几个称为关键条目的转发项，以便重新分配总流量的一小部分，以提高网络性能。这些关键条目由RL智能选择，流量分割比由线性规划（LP）优化。

背景

TE流量工程

TE计算一个最优的路由策略，并配置跨广域网（WANs）的路由。

基于流的路由

过程：给定网络中的一组预先生成的路径，流（源-目的）根据每个路由器路由表中安装的转发条目，沿着具有不同流量分割比的路径转发。当流量变化时，集中控制器将计算一个新的路由策略来适应流量动态，然后更新基于流的转发条目，以促进有意的路由策略和实现细粒度的流量控制。

缺点：对于具有P前缀的网络，每个路由器必须在最坏的情况下存储O（P^2）转发条目，以区分数据包的源地址和目标地址。存储要求高，查找时间增加转发时延

基于目的地的路由（OSPF）

路由器根据数据包的目的地地址做出转发决策。

优点：只需维护O §项的转送表格，有效地降低转发的复杂性。

缺点：为了响应地适应动态流量变化，基于目的地的TE需要频繁地更新路由。

挑战：为所有项生成最优的流量分割比率可能是耗时的，因为在大型网络中解决流量重新路由优化问题的计算复杂度通常很高。其次，在每个路由器上频繁更新大量转发条目请求高管理开销，并为路由更新引入长延迟。

核心是设计一个启发式算法来识别这种“关键”转发条目。

概要

FlexEntry：以实现接近最优的网络性能，并同时减轻路由更新开销。灵活使用等成本多路径（ECMP）[18]转发大多数流量，然后通过在流量变化时安装一些关键条目（基于目的地的转发条目），有选择地、动态地重新分配总流量的一小部分。

对于每个给定的流量矩阵（TM），FlexEntry采用强化学习（RL）学习策略，有效地选择适当数量的关键项，然后通过制定和求解一个线性规划（LP）优化问题，得到相应的无环重路由分割比。

贡献：1）定制了一个2阶段的RL方法，精心设计奖励以识别不同网络场景中关键条目的灵活数量。2）采用LP为RL产生奖励信号，并优化所选关键条目的流量分割比，以控制流量分布。

方法

通过在一些路由器上智能地安装/更新一组关键的基于目的地的转发条目，结合LP、RL来解决现有的路由更新开销问题。

采用了一种新的2阶段RL设计，对多个子模型进行预训练，以选择不同数量的关键条目，并使用单一模型为不同的交通场景选择合适的子模型。

动机

1)应安装多少个关键条目，以保证良好的网络性能？

2)应该在哪些位置安装关键的路由器？

3)一旦确定了安装关键条目的路由器，就应该重新分配流量属于哪个目的地？

4)如何在可用的下一跳中重新分配所选流量？

使用LP解决4，RL解决1、2、3

除了要解决的基于目标的路由变量外，还需要为每个候选条目确定是否应该选择它来进行路由更新。如果是，则该条目将被视为一个关键条目，并应优化相应的流量分割比率；否则，该条目将基于默认的路由方案（例如ECMP）转发流量。

任务

对于一个给定的TM，FlexEntry的任务是(1)决定需要多少关键条目（即K）实现接近最优性能路由更新开销，(2)选择一个好的组合K路由器目的地对作为关键条目，和(3)重新分配选定的流量容许下跳2平衡链路利用基于关键条目的网络。

第一个RL模型

在第一个训练阶段训练多个RL子模型，其中每个子模型负责识别唯一数量的关键条目。每个子模型的选择策略被表示为一个神经网络，该神经网络将一个“原始”观察结果（例如，一个给定的TM）映射到K个不同关键条目的组合。每个子模型pj的目标是学习一个策略π，该策略π为每个给定的TM选择Kj“正确”路由器-目的地对的组合。

状态：一个流量矩阵TM

动作：对于有N个节点的网络，每个路由器中可以有N−1个目标转发项，即将流量转发到其他N−1个目标节点。将动作空间定义为{0,1，…，N∗（N−1）−1}，并允许每个子模型pj为每个实例s（即a1，a2，…，aKj）采样Kj个不同的动作。

奖励：对于每个子模型pj，对于给定的实例s，将采样不同的路由器-目标对。然后，可以对每个子模型解决V-A节中描述的LP优化问题（9a），以获得最大的链路利用率U。Uoptimal通过优化所有基于目的地的转发条目的流量分割比，得到了该最优解。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D07HfGaA-1676643449110)(D:\homework\note\机器学习\论文.assets\image-20230120172008214.png)]

第二个RL模型

在第二个训练阶段训练单个模型，为任务(1)找到一个合适的K值，这将负责决定应该使用任务（1）的哪个子模型为任务(2)生成相应的K个关键条目。在第一个训练阶段，这个单一模型也在相同的TM数据集上学习，但它的选择策略被表示为不同于子模型的神经网络，子模型将输入映射到要使用的一个子模型（即pj）。

状态：与一阶段相同的一个流量矩阵TM

动作：动作空间为{1,2，…，m}表示m个子模型，动作选择一个子模型。

奖励：基于输入TM，将使用所选的子模型pj来识别最佳的Kj关键条目。然后求解LP优化问题，得到关键条目的最优流量分割比以及最大链路利用率u。由于低开销目标，单个模型需要权衡关键条目的数量K和网络性能PR。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W1UAjg5h-1676643449111)(D:\homework\note\机器学习\论文.assets\image-20230120170152068.png)]

LP优化

流量要么在默认的ECMP下一跳之间均匀地分布，要么根据关键条目在允许的下一跳之间不均匀地分布。

在这两个训练阶段制定并解决了一个LP优化问题（在V-A节中描述），以生成任务(3)关键条目的的最佳流量分割比率，并获得由此产生的最大链路利用率作为奖励信号的一部分。

给定一个新测量的TM，FlexEntry将利用在第二阶段训练的单个模型来选择一个合适的子模型，其中所选的子模型负责在当前交通场景下识别相应的K个关键条目。然后，通过求解V-A节中提出的LP优化问题（9a），可以得到关键条目的最优重路由分割比，使集中控制器在相应的路由器上安装/更新新的关键条目，从而相应地重新分配流量。

线性规划：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y0KhsKlS-1676643449111)(D:\homework\note\机器学习\论文.assets\image-20230120180337011.png)]

流量分割的一个近似方法是对5元组数据包头字段进行散列，然后根据散列结果和分割比率（参考RFC 2992 [45]和标准散列技术[46]）将TCP（或UDP）流分配给其中一个输出端口。