论文阅读-学习用双向协同变压器交替解决路由问题

摘要

近年来,变压器已成为解决车辆路径问题(VRPs)的主流深度架构。然而,由于其位置编码(PE)方法不适用于表示VRP解,因此它在VRP的学习改进模型中效果较差。

本文提出了一种新的双侧向特征协同变压器(DACT)来分别学习节点和位置特征的嵌入,而不是像现有的位置特征那样将它们融合在一起,以避免潜在的噪声和不兼容的相关性。

此外,通过一种新的循环位置编码(CPE)方法嵌入了位置特征,使变压器能够有效地捕获VRP解(即循环序列)的循环性和对称性。

我们使用近端策略优化来训练DACT,并设计了一个课程学习策略,以提高更好的样本效率。我们应用DACT来解决旅行推销员问题(TSP)和有容载的车辆路线问题(CVRP)。

结果表明,我们的DACT优于现有的基于变压器的改进模型,并且分别在合成实例和基准实例的不同问题大小上表现出更好的泛化性能。

introduction

车辆路线问题(VRPs),如旅行推销员问题(TSP)和有能力车辆路线问题(CVRP),考虑为单一或车队寻找最佳路线,以服务于一组客户,有无处不在的现实应用[1,2]。尽管在运筹学(OR)社区进行了深入的研究,但由于其np硬的[3]特性,vrp仍然具有挑战性。最近关于学习神经启发式的研究正在引起关注,作为对传统手工制作的方法(如[4–14])的有希望的扩展,其中,强化学习(RL)[15]通常被用来训练深度神经网络作为一个有效的求解器,而没有手工制作的规则。一个显著的动机是,深度神经网络可以通过以端到端和数据驱动的方式识别有用的模式来学习更好的启发式方法。
在这里插入图片描述

  • 原始变换器通过位置编码PE将句子(顺序词)整合到一个统一的嵌入集合,有助于启发式改进解。

目前的缺陷

  • 直接在PE上add,混合相关性会导致不合理的噪声和随机编码偏差
  • 现有的PE方法倾向于将节点信息和位置信息融合成一个统一的表示形式。位置信息有用,但信息无法确定,会干扰编码器
  • 大多数VRP需要循环序列,难以被编码器正确反映

贡献

我们引入了双特性协同变压器(DACT),其中我们重新访问了解决方案表示,并建议学习一个VRP解决方案的节点和位置特征的独立嵌入组,如图1(b).所示
在这里插入图片描述
我们的DACT遵循编码器-解码器的结构。在编码器中,每一组嵌入都主要从其自身的方面对解决方案进行编码,同时利用一个交叉方面的参考注意机制来更好地感知与另一个方面的一致性和差异。然后解码器从这两个方面收集动作分配建议,并将它们合成以输出最后一个。

同时,我们设计了一种新的循环位置编码(CPE)方法来捕获VRP解的圆度和对称性,使变换器能够对循环输入进行编码,并提高了求解VRPs的泛化性能。

作为最后一个贡献,我们设计了一个简单而有效的课程学习策略来提高样本效率。这进一步导致了RL训练更快、更稳定的收敛。

大量的实验表明,我们的DACT可以在更少的参数下优于现有的基于变压器的改进模型,并且可以分别在不同大小的合成实例和基准实例中很好地推广。

相关工作

我们研究了Wu等人[11]的变压器绝对PE方法直接用于学习改进启发式时的混合相关性和噪声偏差问题。通过一个附加操作符融合节点特征嵌入hi和位置特征嵌入gi,在编码器的自注意过程中存在从输入i到输入j的四个注意查询项,如下:
在这里插入图片描述
分别称它们为 节点到节点,位置到位置,节点到位置,位置到节点 。显然,它们都共享相同的投影矩阵WQ和WK,这可能是不合理的,因为它们被用来表示不同信息[18]的相关性。此外,最后两项本质上是在计算不同信息之间的混合相关性。直观地说,从一个节点的位置(节点特征)到另一个节点的索引(位置特征)的查询将是没有意义的,反之亦然。这种设计可能会进一步给路由问题带来噪声偏差。为了验证这一点,我们使用Wu等人[11]的预训练模型,在TSP20的抽样批实例上可视化上述四个注意项。
在这里插入图片描述
如图8所示,最后两个相关性(节点到位置和位置到节点)似乎不合理地在不同的节点对中呈现出一些随机模式,例如,所有节点都倾向于与接近解方案结束的节点有很强的相关性。这可能会产生有偏见的注意力,从而影响学习启发式的准确性和性能。相比之下,我们的DACT通过分别学习两个方面的特征嵌入来避免这种混合相关性,而不是将它们融合成一个统一的表示。

2.1 Positional encoding (PE) in Transformer.

原变压器采用绝对PE方法来描述元素在序列[16]中的绝对位置,特别是对于NLP。如等式中(1),每个生成的位置嵌入pi∈Rd与第i个字嵌入xi一起加在编码器的第一层
在这里插入图片描述
Shaw等人的[19]进一步提出了相对PE方法,以更好地获取相对顺序信息。在绝对PE的基础上,引入归纳偏差如下:其中,aj−i∈Rd是编码相对位置j−i的可学习参数。
在这里插入图片描述
为了避免上述两个PEs中词语义和位置信息之间的混合和噪声相关性,针对NLP提出了联合位置编码(TUPE)[18]变压器,该变压器对每个信息使用分离的投影度量Wx和Wp如下:
在这里插入图片描述
如前所述,现有的PE方法对VRPs的效果较差,因为它们是在计算注意相关性αij期间(或之后)将节点和位置信息融合成一个统一的嵌入集。同时,它们也不能像在VRP解决方案中那样正确地编码和处理循环输入序列。
在这里插入图片描述

2.2 Deep models for VRP.

在这里插入图片描述
在这里插入图片描述
如算法1所示,我们的DACT训练算法改编自近端策略优化(PPO)[32],这是一种流行的RL算法。

特别地,我们遵循PPO的行为者-批评者变体,它考虑在目标函数(第14行)中减去一个基线vφ(st)(即值函数)来减少方差。我们的vφ类似于Wu etal.[11]的vφ,
(1)将节点和位置嵌入的连接作为输入,然后通过正常的多头注意层(6个头)来增强它们;
(2)增强的嵌入通过平均池化层(类似于DAC解码器中的最大池化层),然后通过四层前馈网络(128和64个隐藏单元)处理得到输出值。

我们训练πθ和vφ的E期和B批次。对于每一批处理,我们动态地生成训练实例Db(第3行),并使用建议的课程学习策略来初始化状态(第4到第6行)。我们利用n步返回估计,在单步时间差分(TD)方法和蒙特卡罗(MC)方法[11](第8至第15行)之间获得了令人满意的权衡。然后,PPO对Db进行k个时期的更新,其目标是一个阈值ε,以惩罚移动概率比pi_theta/pi_old不靠近1的策略方差
在这里插入图片描述
我们还将如等式所示(15)前一个输出的估计值进行clip,以获得更好的性能[43],并定义等式中的基线损失 (16).

我们的两个网络的参数由Adam优化器(第17,18行)更新,具有衰减的学习速率(第22行)
在这里插入图片描述
对于我们的课程学习策略,我们采用了κ=0.2,并根据路由问题的难度级别和问题大小来调整最大CL步长限制系数ξCL。理想情况下,所选的ξCL应该满足以下条件:

(1)与较小的ξ相比,能够显著提高训练的样本效率,
(2)如果采用较大的值,可能无法进一步带来显著的改进。

在实践中,我们建议通过使用不同的ξCL进行初步的短时间训练(大约10个时期)来确定其值。

问题定义

我们将一个VRP实例定义为一组要访问的N个节点,其中节点i的节点特征xi包含2-dim坐标和其他特定于问题的特征(例如,客户需求)。解δ由访问的节点序列组成,我们表示节点i为节点i的位置(索引),节点i被认为是节点i的位置特征。目的是在一定的特定问题约束下最小化总旅行距离D(δ)。
从一个初始而完整的解决方案开始,我们的神经RL策略试图迭代地改进该解决方案。在每一步中,策略都会自动选择一对节点,并使用预设的成对操作符在本地调整解决方案,如2-opt、插入或交换。如图2所示,

  • 给定一个节点对(i,j),2-opt操作子通过反转节点i和节点j之间的段来调整解决方案;
  • 插入操作子通过将节点i放在节点j之后来调整解决方案;
  • 交换操作符通过交换节点i和节点j的位置来调整解。
    这样的操作被重复,直到达到步骤极限T,我们以马尔可夫决策过程(MDP)的形式对其进行建模如下。
    在这里插入图片描述

双方面协同变压器模型DACT

我们的DACT利用嵌入的不同方面来编码VRP解决方案。在DAC编码器中,分别计算了每个方面的自注意相关性,并提出了一种跨方面的参考注意机制,使其中一个方面能够有效地利用另一个方面的注意相关性作为可选参考。然后,DAC解码器从这两个方面收集行动分配建议,并将它们合成到最后一个方面。

4.1 Dual-aspect solution representation

具体来说,我们建议学习两组嵌入,即用于节点表示的节点特征嵌入(NFEs)和用于位置表示的位置特征嵌入(PFEs)

  • 在[5,11]之后,节点i的NFEhi被初始化为其节点特征xi的线性投影,输出维数为dim=64

  • 通过应用我们的循环位置编码(CPE),初始化位置特征pi的PFEgi为一个实值向量(dim=64),该编码是基于循环灰度码。
    在这里插入图片描述

  • 如图4所示,循环灰度编码呈现了一个循环属性(最后一列中的“1110”与第一列中的“1111”相邻)和一个邻接相似性属性(相邻列中的任何代码只有一个数字不同),这两者对于循环序列都是可取的。

      为了在设计CPE时保持这些特性,我们遵循两个观察到的模式:
      1)每个数字包含一个具有反射对称的周期循环,例如,最低数字的‘10|01’;
      2)数字越高,周期越长。
      因此,我们基于等式中的正弦函数创建了类似的模式(4),
      其中使用一个周期为4π/ωd的周期函数(由模量诱导)来生成一个基对称模式(图4的右上角)
    

在这里插入图片描述
z在生成的模式中使N个节点是线性间隔的,角频率ωd沿尺寸减小,使波长在[N1bdim/2c,N]范围内更长(详见附录B)。
在这里插入图片描述
在一个有20个节点的TSP实例上,将我们的CPE方法与绝对PE方法进行了比较。

  • (a)表示嵌入向量,
    表明随着数字的增长,我们的实值基对称模式具有更长的循环周期。
  • (b)表示每两个嵌入之间的相关性(点积)
    表明我们的方法(蓝色)能够正确地反映循环序列的头部和尾部之间的邻接关系,而PE方法(红色)未能做到这一点。
  • ©表示PCA(主成分分析)投影后的前两个主成分。
    验证了我们的CPE向量在空间上分布良好,具有期望的循环和邻接相似性属性。

4.2 The encoder

该编码器由L=3堆叠的DAC编码器组成。在每个DAC编码器中,我们保留了相对独立的NFEs(等式5)和PFEs(等式6)的编码流,分别由一个共享的双方面协同注意(DAC-Att)子层和一个独立的前馈网络(FFN)子层组成。
在这里插入图片描述
DAC-Att将这两组嵌入作为输入,然后输出它们各自的增强的嵌入。每个子层之后都有与原始变压器相同的
跳过连接[30]和层归一化[31]

DAC-Att

DAC-Att子层从自己的方面增强了每一组嵌入,同时利用来自其他方面的注意相关性来实现协同作用。给定两组嵌入{hi}和{gi},我们首先从这两个方面计算自注意相关性,独立矩阵WhQ、WhK、WgQ和WgK∈Rdim×dk用于计算查询和键。
在这里插入图片描述
其中,相关性是从它们自己的方面计算出来的,这消除了可能的噪声,并有助于正确地描述VRP解决方案中不同方面的不相容的节点对关系。

然后,我们利用一个跨方面的参考注意机制,它允许计算的相关性之间相互共享,作为对比和协作的额外参考,其中WhV,WgV∈Rdim×dv是可训练的参数矩阵;而Vref,WgVref∈Rdim×dv是每个方面的参数矩阵来生成参考值。
在这里插入图片描述
最后的多头注意力得到NFEs编码值h * 和PFEs编码值 g *
在这里插入图片描述

FFN

我们的FFN子层只有一个隐藏层,有64个隐藏单元,并采用了ReLU激活函数。各组嵌入物的FFNh和FFNg的参数均不同。

4.3 The decoder

在DAC解码器中,两组嵌入{h(i)}和{g(i)}首先通过最大池子层和多头兼容(MHC)子层,独立生成不同的节点对选择方案,然后通过前馈聚合(FFA)子层聚合输出。

Max-pooling

对于每一组嵌入,我们采用Wu等人[11]中的最大池子层,将所有N个嵌入的全局表示聚合到每个嵌入中。
在这里插入图片描述

MHC多头兼容性子层

计算每个嵌入对的注意相关性,其中得到的与大小为N×N的相关性将被视为节点对选择的建议分布。
我们的相关性是基于多个具有多样性的头来计算的。我们从这两个方面分别计算了分离的注意得分矩阵Ykh,Ykg∈RN×N(头部k)。
因此,因为当前解在不同方面的重点和认知不同,所以行动建议方案也将有所不同,这将为后续的FFA层提供丰富的建议池,并使我们的模型更加灵活和健壮。

FFA

一旦收集了两个方面的所有建议,就会使用一个四层的FFN(尺寸分别为2m、32、32和1)和ReLU激活来聚合它们,
在这里插入图片描述
输出是选择节点对作为动作的可能性。应用Yˆij=C·Tanh(Y˜i,j)和C=6来控制熵,并将不可行节点逐渐mask为-inf,此外,我们还屏蔽了所有的对角线元素,因为它们对成对的算子没有意义,并且在最后一步选择了节点对来禁止可能的死循环[11]。
最后,利用Softmax函数对概率进行归一化,得到最终的动作分布Pi,j。

4.4 Reinforcement learning algorithm

我们采用带有n步返回估计的近端策略优化[32]进行训练(细节见附录C),并设计了一种课程学习(CL)策略,以提高样本效率。

Curriculum learning strategy

Wu等人[11]的策略为训练设置了最大的训练步骤,并通过自举[33]估计未来的回报。然而,由于考虑到训练成本,Ttrain通常比实际的推理T要小得多(例如,200 v.s 10k),这可能会让代理在培训期间很难观察到高质量的解决方案(状态)。因此,它可能会导致引导的高方差,因为值函数大多拟合在低质量的解决方案上,并可能使它在准确估计长期未来回报方面的知识不足。

在本文中,我们通过一个简单而有效的策略来解决这个问题,它逐渐规定了更高质量的解决方案作为训练的初始状态。
在此过程中,
1)增加了代理观察到更好的解的概率,从而减少了值函数的方差;
2)逐步增加了学习任务的难度(更高质量的解决方案更难提高),获得了更好的样本效率[34]
在实践中,这些更高质量的解决方案可以很容易地通过使用当前的策略改进随机生成的一些Tinit步骤来实现,其中Tinit可以随着时代的增长而略有增加。

5 Experiments

我们在两个具有代表性的路由问题上评估了我们的DACT模型,即TSP和CVRP[5,8,11]。对于每个问题,我们遵守现有的约定,动态地随机生成三种大小的实例,即N=20、50和100。
对2-opt、交换和插入三个操作符的初步实验表明,2-opt对TSP和CVRP都表现最好(插入优于交换),因此我们报告了基于2-opt的方法的结果。
在[4,11,27]之后,我们使用随机生成的初始解进行训练,并使用贪婪算法生成的解进行推理。由于每个问题都有自己的约束和节点特性,我们调整输入,可行性面具,和问题的超参数为每个问题,细节在附录D和E。
DACT训练和测试服务器配备泰坦RTXGPU卡和英特尔i9-10940XCPU在3.30GHz。我们在PyTorch中的代码可以在这里找到8。

实验细节

超参数

我们将TSP20、TSP50和TSP100的ξCL设置为0.25、2、10;CVRP20、CVRP50和CVRP100的ξCL分别设置为1、4、12.5。为了避免梯度爆炸,我们遵循[5,7,17],将三种尺寸的TSP和CVRP的梯度范数分别剪辑在0.04、0.2和0.45以内。这两个问题的奖励折扣系数都设置为γ=0.999。

训练

我们用TSP和CVRP的E=200批次和B=20批次来训练我们的模型。由于GPU内存有限,我们对CVRP100使用512。对于n步PPO算法,我们设置了n=4,T==200为TSP,n=10,T=500为CVRP。PPO每批执行K=3小批更新,其目标函数被裁剪为阈值=0.1。我们采用Adam优化器,πθ的学习速率为ηθ=10−4,vφ采用ηφ=3×10−5,两者均以β=每epoch0.985衰减进行收敛。我们使用TSP50和CVRP50的预训练模型来训练TSP100和CVRP100,以加快收敛速度,而对于其他模型,该模型是随机初始化的。我们使MDP的所有状态转换和掩蔽能够在GPU上并行执行批量处理,以获得更高的效率。训练时间随问题的大小而变化。TSP20、TSP50和TSP100的历元分别需要6(分钟)、9和13;CVRP20、CVRP50和CVRP100分别为21米、35米和53米,比Wuetal.[11]报道的要短。

稳定性

我们研究了DACT模型(没有增强)的稳定性。图9描述了对10,000个测试实例的10次独立运行的TSP100和CVRP100上的目标值的方框图,其中描述了最小值、下四分位数、平均值、上四分位数、最大值和可能的结果出口。在每个子图中,我们根据表1中的设置显示了三步极限T的结果,即T=1k、5k和10k。对于T=1k,TSP100的箱形图的范围仅为0.005,CVRP100为0.01。随着步长极限T的增加,箱形图的范围可以进一步缩小。这些结果表明,我们的DACT模型具有理想的推理稳定性。

泛化性

现在,我们通过直接应用第5节中训练过的模型来解决来自两个著名的基准数据集的实例,即分别是TSPLIB[38]和cvrplib[39],来评估DACT的泛化性能。请注意,这些实例可能遵循与我们的完全不同的分布,如集群客户位置、角落仓库位置等。我们报告了TSPLIB的大小在50到200之间的实例的结果;cvrplib的大小在100到200之间。

如表4和表5所示,我们首先将DACT与Wu等人的[11]进行了比较,以验证DACT优于现有的基于变压器的改进模型的性能。在第二组列,我们报告几个强大的基线的性能包括,1)OR-Tools[37],2)采样[5],3)POMO×8增强[8],最先进的神经构造求解器,和4)吴等[11]的增强变体,样本M行动产生多个解决方案在每一步和检索最好的下一个状态。我们在最后一组列中展示了有和没有增强的DACT的性能。对于TSPLIB,我们使用TSP50训练的DACT模型推断前5个实例(大小为<100),其余的实例使用TSP100训练的模型。对于cvrplib,我们使用在CVRP100上训练的DACT模型来推断所有实例,因为所有的大小都大于100。对于am采样和POMO,我们使用由作者提供的我们的大小的训练模型。Wu等人[11]和or-tools的研究结果改编自Wu等人[11]。这些间隙是根据数据集中提供的最优解来计算的。我们还列出了不同问题大小间隔下的实例的平均间隙,即[50,100)、[100,150)和TSPLIB的[150,200];以及cvrplib的[100,150)和[150,200]。

TSPLIB
关于表4中的TSPLIB,我们的DACT(T=3k)在所有预期的“rd100”的实例中显著优于Wu等人11。它也比两个神经构造求解器am-采样(N=10k)和POMO×8增加了所有三个问题大小间隔,随着问题大小的增加,对它们的优势变得更加明显。通过更大的步骤(T=10k),我们的DACT继续提高解决方案的质量,并在总体平均差距方面超过了所有的基线,包括OR-Tools和Wu等人[11] (T=3k,M=1k)。通过4个增强功能,我们的DACT持续减少差距,并在大多数实例中实现最佳性能,总体平均差距最低,即2.07%。

Remarks
值得注意的是,尽管POMO×8增加之前取得了最先进的性能在合成实例根据Kwon etal.[8],它仍然缺乏泛化的基准实例,其底层的核心模型是AM(显示最差的泛化性能在表1)。同时,我们也可以从结果中推断,Wu等人[11]和我们的DACT的神经改进模型比am采样和POMO的神经构建模型具有更好的泛化能力。鉴于我们的DACT模型的优势,它在TSPLIB和cvrplib的这些基准测试实例上,在所有现有的基于变压器的模型中实现了最先进的泛化性能。

5.1 Comparison studies

L2I需要167天的10,000个CVRP100个实例,在其原始论文中估计为24分钟/实例,因此不作为CVRP基线。
在这里插入图片描述
除非另有说明,所有的结果平均超过10,000个实例,(例如,标记为#的实例只推断2000个实例),我们报告目标值、(最优性)间隔和运行时间的指标。关于基线,我们遵循在他们的原始论文中报告的结果,这可能不包括所有的三个指标。
对于TSP,采用Concorde得到最优解,并在此基础上计算出其他方法的最优性间隙。CVRP很难得到最优求解,间隙是根据LKH的解计算的。请注意,即使对于推断10,000个随机实例的基线,它们的目标值可能与我们的略有不同(例如,标记的),因此我们更多地关注Gap,以便进行公平比较。由于各种因素(例如,GPU/CPU模型,批处理大小,Python v.s.C++),运行时间也很难进行比较。对于DACT,我们报告了在“()”中推断使用多个GPU卡的所有10,000个实例,以及在“{}”中推断使用一个GPU卡的一小批(512个实例)的时间。

关于TSP

我们的DACT的推理步长限制为5000(T=5k)在最优性差距方面优于传统的求解器or-tools和所有的改进模型,包括直接采用原始变压器编码器的Wu等人[11]。它也超过了包括tsp100上的am采样和GCN-BS方法。随着更大的步长限制T=10k,我们的DACT进一步提高了解决方案的质量,并优于其他构造方法,包括MDAM-BS(波束搜索)和POMO(目前最先进的)。

为了进一步减少差距,我们还利用POMO中的数据增强技术(它考虑翻转节点坐标而不改变最优解),以不同的方式多次解决相同的实例。

尽管推理时间增加了(我们在相同的gpu上连续运行数据增强),我们的4个增强DACT不仅超过了8个增强POMO,而且在所有纯学习的模型中实现了最低的目标值和差距。特别是,我们的方法几乎最优地求解了TSP20和TSP50,间隙小于0.005%,TSP100为0.09%,优于大多数最近的神经求解器。

此外,我们的DACT也可以与DPDP竞争,后者利用学习到的热图和动态规划来搜索解决方案。虽然DPDP(100k)几乎可以最优地解决TSP100实例,但我们的DACT在CVRP100上比DPDP更有效。

与CVAE-Opt-DE相比,尽管它在更少的实例上被平均,并集成了差异进化,但我们的目标值仍然更低。

在推理时间方面

我们的DACT与除POMO之外的所有神经求解器都具有高度的竞争力,POMO通过采样不同的轨迹来学习构造模型。然而,当涉及到基准数据集上的泛化性能时,即表2(a)中的TSPLIB[38]和cvrplib[39]时,DACT产生的平均间隙明显低于具有8个增强的POMO,这表明我们的DACT尽管推理时间较长,但在实践中更具优势。

另一方面,DACT可以采用类似的不同推出策略来更早地找到更好的解决方案,或者探索其他模型压缩技术,如知识蒸馏[40],以学习更轻的DACT模型,以便更快的推理。由于我们的重点是改善变压器的神经改进解决器,我们将在未来研究这些可能性。
在这里插入图片描述

5.2 Ablation studies

双方面表示

在表3中,我们评估了我们的双方面表示对TSP50和TSP100上的单方面表示(SA-T)的有效性,其中SA-T主要遵循Wu等人[11]的变压器,但配备了CPE、多头注意和CL策略以进行公平比较。我们观察到,参数较少的DACT始终优于SA-T,这验证了双方面表示的有效性。

循环位置编码

在这里,我们展示了CPE显著提高了不同问题规模的泛化性能。在表2(b)中,我们记录了我们使用PE和CPE的DACT的结果,以及Wu等人[11],当在TSP50上训练的模型直接用于用T=5k解决来自TSP20和TSP100的实例时。我们看到,即使使用PE,我们的DACT也优于Wu等人的[11]。进一步配备CPE,DACT超过了TSP100上的DACT-PE和OR-tools。我们继续通过可视化两种DACT的注意力分数来比较它们的变异。
在这里插入图片描述
如图6(a)所示,虽然绝对PE是为线性序列设计的,但它确实试图在训练后捕获VRP解决方案的循环度(如绿色框中突出显示所示)。

然而,当泛化不同的问题大小时,感知这些属性的能力显著下降,而在泛化到更大的问题大小时,则会产生随机的注意分数(见图6(a)的右侧)。相比之下,我们的带有CPE的DACT能够捕获如图6(b)所示的圆度,这验证了CPE在表示循环序列(即VRP解)方面的有效性。

课程学习(CL)策略

在图7中,我们绘制了有和没有我们的CL策略的PPO算法的训练曲线,其中的结果平均超过5次独立运行,置信区间为90%。结果表明,我们的CL策略在降低训练差异的同时显著提高了样本效率,这与我们在第4.4节中的分析一致。

在这里插入图片描述

6.结论和未来的工作

本文提出了一种新的用于路由问题的DACT模型。它学习了节点和位置特征的单独嵌入组,并配备了循环位置编码(CPE)来捕获VRP解的圆度和对称性。并利用课程学习(CL)策略来提高RL的训练效率。

在合成数据集和基准数据集上进行的大量实验证明了DACT在推理和泛化方面的有效性。一个潜在的限制是,DACT目前对学习改进模型更有用。

在未来,我们将研究如何将DACT扩展到构建模型,以及如何通过不同的推出或模型压缩技术来加速DACT。将所提出的CPE应用于开发基于变压器的模型也很有趣,用于其他循环特性也很重要的任务,例如,在计算生物学[41,42]中编码环状DNA/RNA结构。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值