文献阅读（1）—— Learning Feature Embedding Refiner for Solving Vehicle Routing Problems

最新推荐文章于 2024-10-02 19:15:37 发布

庄宝007

最新推荐文章于 2024-10-02 19:15:37 发布

阅读量849

点赞数 24

文章标签： embedding 人工智能

本文链接：https://blog.csdn.net/2301_80118808/article/details/141322173

版权

(PDF) Learning Feature Embedding Refiner for Solving Vehicle Routing Problems (researchgate.net)https://www.researchgate.net/publication/371034010_Learning_Feature_Embedding_Refiner_for_Solving_Vehicle_Routing_Problems GitHub - jingwenli0312/Feature-Embedding-Refinerhttps://github.com/jingwenli0312/Feature-Embedding-Refiner文章＋代码（看奥运会看入迷了真是非常对不起自己的学习节奏，（完全搁置）之后努力学习！）

摘要

在本文中，我们提出了具有新颖和通用的编码器-精炼器-解码器结构的特征嵌入精炼器（FER），以提高现有的编码器-解码器结构的深度模型。编码器和解码器可以来自任何预先训练好的神经构造方法，这与模型无关。关于引入的精炼器网络，我们通过将标准的GRU单元与两个新层相结合来设计其架构，即累积图注意（AGA）层an accumulated graph attention和门控非线性（GNL）层 a gated nonlinear (GNL) layer。前者提取存储在多样化解决方案池中的历史解决方案的动态图拓扑信息，生成由GRU进一步改进的聚合池嵌入，后者在改进的池嵌入的指导下自适应地完善来自编码器的特征嵌入。为此，我们的FER允许目前的神经构造方法不仅可以迭代完善边界搜索范围的特征嵌入，还可以动态更新概率分布以进行更多样化的搜索。我们将FER应用于两种流行的神经构建方法，包括AM和POMO，以解决旅行推销员问题（TSP）和有容量的车辆路由问题（CVRP）。

索引词：车辆路由问题，神经组合优化，编码器-解码器结构，强化学习

1.简介

在这样的神经启发式方法中，编码器-解码器结构被深度模型广泛利用，以参数化采样解决方案的概率分布。进一步以高级强化学习或监督学习的方式进行训练，编码器-解码器结构在解决VRP方面表现得相当好，特别是在学习神经构造启发式方法方面，它依次决定要访问的下一个节点。通常情况下，如图所示。1(a)，编码器根据特定问题的信息学习表征，并为所有节点产生特征嵌入，而解码器根据特征嵌入产生节点的概率分布。

为此，在我们看来，目前使用的编码器-解码器结构对于神经构造方法来说并不是最佳的。具体来说，它有两个限制，即确定性的特征嵌入和确定性的概率分布。关于前者，在整个采样过程中，特征嵌入是固定的，这就缩小了搜索范围，忽略了采样方案的影响。关于后者，虽然有多个解决方案被抽样，但鉴于分布不变，其中大多数解决方案可能在本质上是相同的，这可能会严重损害搜索的多样性。

为了解决这两个限制，我们提出了具有新颖和通用的编码器-精炼器-解码器结构的特征嵌入精炼器（FER），其中精炼器被添加到编码器和解码器之间，以更好地协同它们，如图所示。1(b)。给定一个（预先训练好的）神经构造模型，FER迭代地完善从编码器产生的特征嵌入，并通过解码器相应地重建一个具有动态概率分布的解决方案。具体来说，精炼器由一个累积图注意（AGA）层、一个门控递归单元（GRU）层和一个门控非线性（GNL）层组成。在每一步，AGA首先提取存储在多样化解决方案池中的历史解决方案的动态图拓扑特征，以得出聚合的池嵌入。GRU进一步改进了池子的嵌入，以吸收以前步骤中更有指导意义和更多的全局信息。之后，GNL学习自适应地完善预训练的特征嵌入（来自构造编码器），使用改进的池子嵌入进行更多的探索。这样一来，我们的FER不仅能够利用迄今为止看到的历史解决方案，在每一步为更广泛的搜索范围有效地完善特征嵌入，而且还能为更多样化的搜索动态地更新相应的概率分布。我们还注意到，还有另一条工作路线，即神经改进方法，也利用深度模型通过邻域搜索迭代改进完整的初始解。然而，他们通常需要根据问题的特定属性来选择算子，并且只在本地更新解决方案，这需要大量的迭代。而我们的FER更通用，可以在每一步更自由地重建一个完整的解决方案。实验结果还表明，我们的FER与最先进的神经改进方法相比表现良好，特别是在有限的迭代次数下。

我们的贡献总结如下：1）我们提出了特征嵌入精炼器（FER），它具有新颖和通用的编码器-精炼器-解码器结构，用于提升现有的路由问题的编码器-解码器结构的神经构造模型。它被设计成与模型无关，因此编码器和解码器可以来自任何预训练的模型；2）我们通过将标准GRU单元与两个新层（即AGA层和GNL层）相结合来设计新增加的精炼器网络的结构。考虑到多样化池中的历史解决方案采样，前者可有效提取动态图拓扑信息，生成聚合池嵌入，并通过 GRU 单元进一步改进。后者在改进后的池子嵌入的指导下，自适应地完善来自编码器的特征嵌入，以进行更多的探索。这样一来，精炼器使策略能够实现更广泛的搜索范围的动态特征嵌入，并进一步实现更多样化的搜索的动态概率分布；3）我们通过将其应用于两个流行的神经构造模型，即AM[16]和POMO[10]来评估我们的FER。在路由问题（TSP和CVRP）的合成实例和基准实例上的大量实验结果很好地验证了我们的FER比现有的编码器-解码器结构化构建模型以及其他最先进的基于学习的基线的优越性。

本文的组织结构如下。第二节回顾了相关工作。第三节介绍了问题的表述。第四节详细介绍了我们的FER方法。第五节报告了实验结果。最后，第六节是本文的结论。

2.相关工作

在这一节中，我们简要回顾了最近在学习神经构造和改进路由问题的启发式方法方面的工作，以及其他一些基于学习的方法。

2.1神经构造方法

从一个空的解决方案开始，神经构造方法学习迭代地将节点添加到部分解决方案中，以构建一个完整的解决方案，其中深度神经网络被利用来产生一个关于节点排列的分布。在开创性的工作中，Vinyals等人提出了指针网络首次尝试用监督学习来解决TSP。随后，它被扩展到强化学习[18]和CVRP[14]。除了指针网络中使用的RNN外，图神经网络在[19]、[20]中也得到了利用。例如，在[20]中，图传统网络（GCN）被利用来计算每条边出现在最优TSP之旅中的概率。随着最近自我注意机制的发展[4]，注意模型（AM）[16]采用了一个遵循编码器-解码器结构的Transformerstyle网络来学习一个构造模型。它在解决各种路由问题上表现出良好的性能，并被认为是该领域的里程碑之一。与AM中使用的单一解码器不同，Xin等人提出了一个新的解码器。[21]提出了一种多解码器AM（MDAM）来学习多种解码策略以提高解决方案的质量。虽然推理时间很短，但这些方法通常需要后处理程序，以确保更理想的解决方案质量，如采样[14]、[16]、[22]、主动搜索[18]、波束搜索[20]、[21]或数据增强[10]。然而，由于特征嵌入和概率分布在整个过程中是固定的，它们的效率和多样性可能有限。

2.2 神经改进方法

作为另一条研究路线，神经改进方法通过迭代改进完整的初始解决方案来学习搜索高质量的解决方案，直到达到一个步长限制。在[23]中，提出了一种神经启发式方法，它可以学习挑选局部搜索操作以及当前解决方案的局部组件来进行重写。在[24]中提出了一种神经大邻域搜索（NLNS）方法，该方法按照邻域搜索的思想学习修复解决方案。Wu等人[13]提出了一种基于Transformer的改进启发式方法来为一个给定的局部算子挑选节点对。它被扩展到双方面协作变换器（DACT）[15]，以更好地结合节点和位置特征的嵌入。与一种新型的循环位置编码方法一起，DACT在现有的神经改进方法中取得了最先进的性能。然而，由于大量的迭代步骤，它仍然存在计算时间长的问题。与上述需要较少领域专业知识的工作不同，Lu et al.[25]介绍了基于一些特定问题特征和运算符的L2I框架。尽管L2I找到的解决方案的质量在解决CVRP方面优于LKH，但它的计算时间可能比其他改进方法（如DACT[15]和Wu et al.[13])。

2.3其他基于学习的方法

[26]中的CVAE-opt-DE利用条件变异自动编码器来学习路由问题的潜在搜索空间，在此基础上采用差分进化（DE）来搜索高质量的解决方案。在[27]中采用了全卷积网络（FCN）来解决多达12个客户的TSP，其最优解为标记数据，仅限于解决大规模实例和更多的约束性路由问题，如CVRP。最近，[28]中提出的LCP（学习协作策略）结合了构建和改进方法来解决路由问题，它利用播种器来构建不同的候选解决方案，并利用修订器来改进每个候选解决方案。然而，它们的性能在解决方案的质量和推理时间方面仍然不如POMO[10]。

与上述通常采用编码器-解码器结构的神经工作不同，在本文中，我们提出了具有新型编码器-精炼器-解码器结构的FER，以迭代改进编码器-解码器结构的构建方法。它允许神经构造方法不仅可以根据边界搜索范围的采样历史解来迭代完善特征嵌入，而且还可以动态更新概率分布，以实现更多样化的搜索。

3.问题的提出

在这一节中，我们介绍了所研究的车辆路由问题，即TSP和CVRP，并将应用我们的FER来解决它们的过程表述为马尔科夫决策过程。

给定一组客户节点V，索引为i=1，2，...，N。TSP的目的是优化一个旅游，使每个节点正好访问一次，目的是使总旅行成本（长度）最小化。在V中增加了一个仓库节点O，CVRP的目标是优化一个由相同车辆组成的车队的路线，该车队有能力为一组有需求的客户提供服务，其约束条件是：1）每个客户必须正好被访问一次，而仓库可以被多次访问；2）对于每辆车来说，其路线上的客户的总需求不能超过其容量。形式上，我们将目标路由问题（即TSP或CVRP）的解决方案定义为一个有向图δ=（V,E），其中每个元素{i,j}∈E是一条从节点i到节点j的有向边。为解决方案δ的目标值（成本），其中dij指节点i和节点j之间的欧氏距离。

给定一个基于编码器-解码器的构造模型，我们的任务是对它进行T步采样，并检索在这个过程中发现的最佳解决方案。为了更好地利用步骤t的抽样历史解决方案，我们维护一个解决方案池，表示为，其中最多包括K个解决方案和它们的成本。我们将上述搜索过程建模为马尔科夫决策过程（MDP），定义如下。

状态。在公式（1）中定义的状态s t由静态和动态部分组成。前者指的是直接从构造编码器获得的节点嵌入{h i ,i ∈V}。后者包括步骤t的解决方案池的特征，它被定义为一个函数，输出P t中解决方案的边界和成本。

行动。行动是在步骤t构建y个完整的解决方案，即。请注意，y取决于构造模型的解码器。如果使用AM[16]，那么y=1。对于其他一些以不同解码设置生成多个解决方案的构造模型，有可能y>1（例如，POMO[10]，它认为把每个节点作为解决方案的第一个节点，在每一步生成y=N个解决方案）。在实验中，我们表明FER可以提高上述两种情况下的性能。

奖励。我们将步骤t的最佳目标值记录为，其中 $C_{bsf}^{0}$ 是初始解的目标值。奖励被定义为 $r_{t}=C_{bsf}^{t-1}-C_{bsf}^{t}$ ，这意味着最佳到目前为止的目标值的减少。请注意，当每一步构建多个解决方案（即y>1）时，奖励也可以应用。在这种情况下，我们独立地记录解决方案的y个最佳到目前为止的目标值来计算奖励。

动态过渡。在每一步 t，我们都会按照稍后在第 IV-D 节中介绍的多样化解池方案更新解池。

4.方法论*

在现有的编码器-解码器结构神经构建模型的基础上，我们的 FER 在编码器和解码器之间增加了一个名为 “细化器 ”的新组件。从直观上讲，细化器旨在通过动态细化编码器的特征嵌入，在搜索过程中利用更多不同的信息。如图 2 所示，细化器使用存储在多样化池中的历史解决方案采样，反复细化（从编码器获得的）给定节点嵌入，提高解决方案重构（由解码器执行）的多样性和效率。具体到精炼器网络的结构，它主要包括一个累积图注意（AGA）层、一个门控递归单元（GRU）层和一个门控非线性（GNL）层。我们的精炼器中这些层的详细结构显示在图中。3(a).在每一步，AGA首先利用历史解决方案的有用信息和它们在当前池中的相应成本来得出聚合池嵌入。然后，GRU通过融合以前步骤中更有指导意义和更多的全局信息来进一步改善池子的嵌入。之后，GNL在改进的历史嵌入的指导下，自适应地完善来自构造编码器的节点嵌入，以进行更多的探索。最后，细化的节点嵌入被流入构造解码器以生成解决方案，然后相应地更新解决方案池。这个过程反复进行，直到达到步长极限 T 。下面我们正式详细介绍它们。

4.1编码

在我们的方法中，编码器可以来自任何预先训练好的神经结构模型。在这里，我们专注于AM[16]和POMO[10]中的Transformer风格的编码器，它提供了最先进的性能。在AM和POMO中，编码器首先将特定问题的特征嵌入到高维空间，然后将它们传递给堆叠的注意层，以提取有用的信息，从而更好地表示。设f i为节点x i ,i∈V的特定问题特征，它包含二维位置坐标（对于TSP和CVRP）和一维需求向量（仅对于CVRP）。具体来说，f i被线性投影到128维的初始节点嵌入h0 i[16]。然后通过L（AM和POMO分别为3和6）个注意层进行处理，以不同的参数达到最终的节点嵌入hL i，其中每个注意层由一个多头注意（MHA）子层和一个前馈（FF）子层组成。按照Transformer模型的原始设计[4]，MHA 子层和 FF 子层的输出之后都有一个跳接层[29]和一个批量归一化（BN）层[30]，如式（2）和式（3）所示

MHA子层。MHA子层使用多头自我注意机制[4]，用M=8头来计算每两个节点之间的注意权重。具体来说，[4]中提出的查询/键/值被定义为d k = d/M维，如公式所示。(4).

然后，通过使用公式中的Softmax激活函数来计算注意力权重。(5)来表示每两个节点之间的影响。

最后，第l个MHA子层首先通过对注意力权重与公式中的值进行元素相乘来计算新的上下文向量。(6)，然后将公式中M个头的信息汇总。(7)。

图3：我们提出的用于路由问题的细化器网络。(a)整体结构；(b)池中有3个解决方案的多头累积图注意的说明。

4.2精炼器

我们现在详细说明我们的精炼器中三个主要层的结构，即AGA、GRU和GNL层。

AGA:

GRU:

每个节点i的聚合池嵌入使用门控递归单元（GRU）单元进一步处理，以提取和记忆之前所有步骤的全局历史信息，输出用公式表示(13)。

GNL:

第5.4节对所提出的精炼器的每个组成部分的功能进行了验证。

4.3解码器

与编码器类似，解码器也可以来自任何预先训练好的神经结构模型。我们仍然在AM和POMO中应用Transformer风格的解码器。然而在我们的模型中，解码器不是采用编码器生成的原始嵌入 $h_{i}$ ，而是采用来自精炼器的最终节点嵌入 $\overrightarrow{h_{i}}$ ,i∈V作为输入，在此基础上，它在每个解码步骤中依次选择一个节点来采样一个完整的解决方案δ = {π 1,π 2,...πz }，其中Z指的是解码步骤。具体来说，对于TSP来说，Z等于N，但对于CVRP来说，由于多次访问仓库，Z可能大于N。

以TSP为例，解码器首先计算节点嵌入的平均值，以提供一个更全面的视角，即，然后在公式中定义一个上下文向量(16)作为平均图嵌入、路线末端节点的嵌入和最后访问的节点的组合（为简化起见，我们省略步骤t）。

其中是在解码步骤z访问的节点的节点嵌入。对于第一步，hc的最后两个元素被可训练的参数所取代。然后，上下文向量和精炼的节点嵌入被一个MHA层处理，如第4.1节所介绍的，以产生公式中的窥视向量 $h^{g}$ (17)。

在解码步骤 z 中，解码器计算增强的瞬时信息与节点嵌入之间的兼容性，从而进一步计算选择下一个访问节点的概率，如公式(18) - (19) 所示。

关于POMO，由于它通过将N个节点中的每一个作为第一个访问的节点来构建N个解决方案（），它定义了N个上下文向量 $h_{i}^{c }$ , ∀i ∈V，如公式所示(20),

然后按照公式处理N个上下文嵌入。(17)-(19)并行进行，以获得在N个解决方案中的每个解决方案中挑选下一个节点的概率。关于解码策略，我们可以以一种贪心的方式选择具有最大概率的节点，或者在每个解码步骤中根据概率对一个节点进行采样。新生成的解决方案将按照第4.4中介绍的池子更新机制被添加到池子 $P_{t }$ 中。

4.4解池多样化

解决方案的多样性对搜索性能很重要。我们设计了以下机制来增加我们的FER的解决方案的多样性。首先，我们用新构建的δ t（由解码器）随机替换当前池中的一个解决方案δ i。其次，随着训练的进行，概率逐渐增加，我们进一步选择用随机生成的新解δ R t替换池中的另一个解δ j，具体规则如下：我们首先检查当前池中是否包含前几步中添加的随机生成的解；如果是，这种解被设置为δ j；如果不是，我们从池中随机选择另一个解作为δ j（δ j ̸= δ t）。我们将上述操作总结为公式。(22)。

其中i ̸= j , "-和∪分别是集合减法和联合运算符。决策概率是根据历时指数e、总历时数E（定义见下文）和随机数ε∈[1,E+1]计算的。对于POMO，我们从新抽样的N个解决方案中随机选择K个解决方案来更新池子。在这样做的时候，池子可以，1）提供一个更多样化的动态状态（在MDP中），在步骤t−1和t之间有不同的解决方案；2）通过逐渐趋近于池子中只包含一个随机解决方案的情况，在探索和利用之间实现更好的平衡。

4.5训练算法

正如算法1所总结的，我们采用n步优势演员批评家（A2C）算法来训练我们的FER，以优化在第三节中定义的目标值，它执行了E个历时的训练。行为者{π e,π d,π r }由预先训练好的构造编码器π e和解码器π d以及引入的精炼器π r组成，其中编码器π e的参数在训练期间是固定的。关于批判网络v φ，它将精炼器生成的精炼节点嵌入作为输入，并计算出估计的状态值。批评者网络的结构类似于[13]，它首先将精炼的节点嵌入和它的平均集合连接起来作为融合的节点，然后通过多层感知（MLP）层[31], [32]处理融合的嵌入，得到输出值。

5.实验

我们在两个研究最广泛的VRP上进行了实验，即TSP和CVRP，以验证我们方法的有效性。按照[10]、[15]、[16]，我们为每个问题随机生成具有N（20、50和100）个节点的实例进行训练并使用与[16]相同的10,000个实例进行测试。为了评估我们的FER对不同神经构造方法的适用性，我们将其应用于两个流行的深度模型，即AM2和POMO3，通过采用其原始编码器和解码器。我们把相应的新模型分别称为FER-AM和FER-POMO。

CVRP20和CVRP50的E=100个历时，每个历时的B=20个批次；CVRP100的E=200个历时。关于FER-AM，我们将批次大小设置为512，n步=4，T=100步。采用亚当优化器[33]，行为者的初始学习率为10−4，批评者为5×10−5，衰减率等于0.99。关于FER-POMO，我们将批次大小设置为32，n步=5，T=100步。行为者的初始学习率被设置为5×10−5，批评者为10−6，衰减率等于0.988。解码器遵循相应的原始构造方法的设计，对AM和N的单一解决方案进行采样。

1.解决方案池分析

我们首先分析了我们提出的FER中解决方案池大小和解决方案池多样化方案的影响。解决方案池大小的影响。在表一中，我们使用不同数量的K（从2到10）来训练和测试我们的FER-AM，以解决T=5,000的CVRP实例，以显示解决方案池大小的影响。差距是根据目标值最低的方法得到的解决方案（即解决方案的总长度）计算的，时间是指所有方法解决所有10,000个实例的计算时间。我们可以观察到，较大的池子规模往往能实现较低的目标值和最优性差距，但计算时间较长。为了在解决方案的质量和计算成本之间实现理想的权衡，我们在下面的实验中对CVRP20和CVRP50采用K=6，对FER-AM和FER-POMO都采用K=8的CVRP100。

解池多样化方案的影响。在表二中，我们将解决方案池P t替换为贪心的解决方案，即在T=200的情况下，保留了解决CVRP的最佳K个解决方案。我们可以观察到，多元化池的目标值始终比贪心池的低，而且随着问题的扩大，我们的多元化池的优越性更加明显，这验证了我们设计的有效性。

2.比较分析

现在我们将FER与神经构造模型，即AM和POMO进行比较，以显示我们方法的有效性。关于AM，我们使用其抽样策略来生成S个解决方案来解决一个实例，其中S分别被设置为200和5,000。关于具有不同展开策略的POMO，我们使用S=200的抽样策略，有和没有×8的增强来解决一个实例。它分别产生8×200×N和200×N的解决方案，其中N是一个实例的大小（节点数）。为了公平比较，我们分别通过对AM和POMO的相同数量的解决方案进行采样来测试FER-AM和FER-POMO。我们还考虑了最新的神经模型LCP[28]5作为基线，它结合了构造和改进方法来完善AM。为了计算所有神经模型的最优性差距，我们利用了三个强大的传统求解器，即现在我们将FER与神经构造模型，即AM和POMO进行比较，以显示我们方法的有效性。关于AM，我们使用其抽样策略来生成S个解决方案来解决一个实例，其中S分别被设置为200和5,000。关于具有不同展开策略的POMO，我们使用S=200的抽样策略，有和没有×8的增强来解决一个实例。它分别产生8×200×N和200×N的解决方案，其中N是一个实例的大小（节点数）。为了公平比较，我们分别通过对AM和POMO的相同数量的解决方案进行采样来测试FER-AM和FER-POMO。我们还考虑了最新的神经模型LCP[28]5作为基线，它结合了构造和改进方法来完善AM。为了计算所有神经模型的最优性差距，我们利用了三个强大的传统求解器，即Gurobi[34]、LKH[35]和HGS[36]（最先进的传统的CVRP求解器）。请注意，很难绝对公平地比较神经方法（Python，GPU）和传统求解器（C++，CPU）之间的运行时间，因此我们遵循惯例，报告使用单个TITAN XP GPU（用于神经方法）或单个CPU核心在2.0GHz（用于传统方法）的总运行时间。

表三总结了TSP和CVRP的比较结果。我们可以观察到，尽管计算时间稍长，但我们的FER-AM明显改善了AM在TSP和CVRP上的性能。我们的FER-AM（T=200）在所有情况下的目标值和差距方面都优于AM（S=200）和AM（S=5，000），并且比AM（S=5，000）消耗的计算时间更短。在步长限制T=5,000的情况下，FER-AM以更低的计算成本实现了比AM+LCP略好的性能。

就最先进的方法POMO而言，我们的FER仍然可以提高其在差距方面的性能。在步长限制T=200的情况下，我们的FER-POMO在所有计算时间稍长的情况下都能超越POMO（S=200）。它在TSP20和CVRP20上的表现也优于POMO（S=200，×8增强），计算时间更短，并且在更大的问题规模下提供了有竞争力的结果。此外，FER-POMO（T=200）甚至在CVRP20上表现出比专门的启发式求解器LKH更优越的性能，与最先进的HGS性能几乎相同。通过利用POMO中相同的数据增强策略，FERPOMO（T=200，×8增强）进一步提高了解决方案质量，并且在所有情况下都比POMO（S=200，×8增强）提供更好的结果。特别是，我们的FER-POMO（T=200，×8增强）在所有的神经启发式方法中实现了最低的目标值和差距，并表现出与LKH几乎相同的性能，比HGS略差。我们方法的优越性很好地证明了所提出的编码器-精炼器-解码器结构的有效性，它允许更有效地搜索神经构造模型以产生更高质量的解决方案。

此外，现有的VRPs进化算法还保持了一个用于交叉和变异的解决方案池（群体）以提高解决方案的质量，这与我们的FER方法有一些相似之处。因此，我们将我们的FER与基于种群的进化算法，如遗传算法（GA）[37]在CVRP上的1000个实例进行比较，如表四所示，其中差距是根据目标值最低的方法得到的解决方案计算的。具体来说，我们将FER-AM的初始解池作为GA的初始群体，并以相同的迭代次数，即200次和5000次，运行两种方法。例如，GA（FER-AM Pop，iter=200）指的是与FER-AM（T=200）具有相同初始解池的GA。第一行指的是按照原论文中的设置的GA，我们进一步增加更多的迭代以获得更好的性能。从表四中，我们可以观察到，在相同的初始解池（群体）和迭代的情况下，我们的FER-AM在所有情况下的目标值和最优性差距方面都优于GA，而且计算时间更短。随着种群规模和迭代次数的增加，GA以更长的计算时间实现了更低的最优性差距。然而，它仍然不如我们的FER-AM，这表明了我们方法的有效性。

3.有效性分析

我们继续将我们的FER的搜索效率与三种代表性的神经改进方法进行比较，即Wu et al.[13]9、NLNS[24]10（仅CVRP）和DACT[15]11（最先进）分别用于解决TSP50、TSP100、CVRP50和CVRP100的实例。我们使用这些改进方法的预训练模型，这些模型可以在网上找到。关于DACT，我们使用与FER-POMO相同的×8数据增强（S=200，×8增强），T=5，000个迭代步骤，与其他改进方法类似，以便在很大程度上保持其有利的性能。

这些方法的搜索进度曲线绘制在图中。4，其中横坐标指的是迭代步骤，纵坐标指的是表III中使用的10,000个实例的平均到目前为止的最佳目标值。这里，T=5,000被用于FERPOMO，其中T=200被使用。我们进一步用蓝色虚线绘制了vanilla AM（S = 5, 000）的最佳目标值，用绿色虚线绘制了vanilla POMO（S = 200, ×8 augment）的最佳目标值作为基线，以显示我们FER的改进。我们可以观察到AM和FER-AM之间的巨大差距，这验证了FER的优越性。尽管FER-AM不如POMO，这表明我们的FER的性能取决于预训练的骨干模型的性能，但这是一个公平的情况，因为有一种方法（如我们的FER）不能保证提高骨干模型的性能，使其超过其他更先进和更大的模型（如POMO12）。此外，尽管与FER-AM的情况相比，FER-POMO对最先进的POMO的改进并不明显，但它也是合理的，因为确实很难明显改进一个高度优化的模型。尽管如此，我们的 FER 仍能提高其性能并增强其泛化能力（参见表 VI 和表 VII），这表明了我们方法的有效性。在改进基线方面，可以看到我们的 FER-AM 比 Wu 等人[13]的收敛速度更快，并且在所有情况下都能获得更低的目标值。在与 NLNS 性能相当的情况下，我们的 FER-AM 在有限的迭代步数（即 1,000 步）下收敛得更快，性能优于 NLNS。至于我们的 FER-POMO（S = 200，×8 增强），它在所有情况下都明显优于 Wu 等人的研究[13]和 NLNS。更重要的是，在所有情况下，它的收敛速度都比最先进的神经改进方法 DACT（T = 5，000，×8 增强）快得多，这进一步验证了我们方法的重要性。

4.FER进一步分析

我们现在提供更多的分析来研究拟议的精炼器网络及其组成部分的效果。精炼器的效果。为了验证精炼器能够有效地精炼来自编码器的特征嵌入，并进一步促进多样化的探索，我们在图中可视化了在解决CVRP50实例时选择下一个节点的概率分布。5.我们使用FER-POMO分别在有和没有引入精炼器的情况下进行200步搜索，并在每一步产生一个解决方案进行演示。给定一个固定的部分解决方案，如图左侧所示。5，我们绘制了FER-POMO和FER-POMO-w/o-Refiner分别在第50、100、150和200步选择下一个节点的概率分布。我们发现，在整个搜索过程中，为FER-POMO-w/o-Refiner选择下一个节点的概率总是相同的，而解决方案的唯一多样性来自于相同分布的采样。另一方面，我们的FER-POMO可以通过持续完善节点嵌入和逐步更新采样的概率分布来探索更多不同的解决方案，这有助于提高解决方案的质量（FER-POMO和FER-POMOw/o-Refiner在第200步的目标值分别为11.53和11.70）和采样效率。

精炼器的每个组成部分的影响。在表五中，我们进行了一项消融研究，展示了精炼器的每一部分对使用FER-AM的CVRP50实例的影响，其中差距是根据目标值最低的方法得到的解决方案计算的。标记✓和×分别指使用相应的部分或不使用，标记×(+)-指的是用简单地将编码器的固定节点嵌入和前面组件的精炼嵌入加在一起来代替GNL层。请注意，AGA层不能从FER中移除，因为它是细化器的一个基本组成部分，提供多样化的信息，如第四节B所介绍的。因此，AGA被保留在最后四行。从表五中，我们可以观察到GNL层在目标值和优化差距方面优于有无GRU单元的方法的(+)-策略，因为GNL层可以自适应地结合池嵌入和节点嵌入以获得更理想的表示。此外，GRU单元还可以提高了同时采用GNL层和（+）策略的方法的性能，因为它聚合了在前面所有步骤中从AGA学到的指导性和全局信息。进一步将GRU和GNL结合在一起，我们的FER-AM（最后一行）在目标值和最优性差距方面取得了最佳性能。

5.泛化分析

现在，我们分别在两个著名的基准（即 TSPLIB [38] 和 CVRPLib [39]）上评估 FER 的泛化性能。我们将 FER-POMO（T = 200，×8 扩增）与 Wu 等人[13]和 POMO（S = 200，×8 扩增）进行了比较，结果记录在表 VI 和表 VII 中。与 Wu 等人[13]类似，我们使用为 TSP100 和 CVRP100 训练的模型来解决这些实例，大小分别为 51 到 200 和 101 到 200。对于 POMO 和 FER-POMO，我们在 TSPLIB 和 CVRPLIB 上通过从三个概率最高的候选节点中抽取一个节点来构建解决方案，以获得更稳定的推理。我们报告了每个实例的目标值，以及基于数据集中提供的最佳解决方案的平均差距。在表六中，我们可以观察到FER-POMO明显优于Wu等人。[13]和POMO的平均差距。特别是，尽管POMO产生了高质量的解决方案，FER-POMO仍然可以在TSPLIB上减少其差距13.12%。此外，FER-POMO在不同尺度的大多数实例上取得了神经方法中最低的目标值，这表明我们的方法即使在大规模实例上也有稳定的优越性。在表七中，可以观察到与TSPLIB类似的模式，我们的FER-POMO在CVRPLIB上超过了所有其他神经方法，并将POMO的性能提高了19.82%。泛化性能的优越性进一步证明了我们的编码器-精炼器-解码器结构的有效性，它允许更多样化的搜索来提高解决方案的质量。

6.复杂度分析

最后，我们提供了拟议的FER的复杂性分析，特别是设计的精炼器。我们进一步绘制了FER-AM及其精炼器部分在1）问题规模从20到500，K=2的计算时间，见图。6(a)和2)图中N=100的2到20的池子大小。6(b)在1000个随机生成的实例上。从图中可以看出。6(a)，我们可以观察到FER-AM和精炼器的计算时间似乎随着问题规模的扩大而呈四级增长，这可能是由于应用于AM的注意力机制[4]的四级复杂性和精炼器中N×N表内操作的累积注意力机制。然而，精炼器的计算时间的增加速度要比整个FER-AM慢得多，这表明所设计的精炼器的计算复杂度很低。从图中可以看出。6(b)，我们可以观察到FER-AM和精炼器的计算时间似乎随着池子大小的增加而近似线性增加，这是合理的，因为精炼器需要聚合池中所有解决方案的信息。此外，与整个模型相比，精炼器的计算时间可以忽略不计，这进一步证明了我们方法的计算效率。

6.结束语和未来的工作

在本文中，我们提出了一种用于解决车辆路由问题的新型编码器-精炼器-解码器结构，它通过精炼来自编码器的特征嵌入来迭代改进神经构造方法，以实现更广泛的搜索范围，并通过解码器相应地重建具有动态概率分布的解决方案，以实现更多样化的搜索。具体来说，所提出的精炼器首先通过 AGA 层从动态历史解中提取图拓扑特征，从而得出集合池嵌入，然后通过 GRU 单元吸收之前改进步骤中的指导性和全局性信息来改进集合池嵌入，最后通过 GNL 层在改进池嵌入的指导下精炼编码器预训练的特征嵌入。通过这种方法，FER 使神经构建方法不仅能迭代改进特征嵌入，以扩大搜索范围，还能动态更新概率分布，以实现更多样化的搜索。广泛的实验表明，我们的方法可以有效地改进流行的神经构造方法，并且以更高的采样效率表现出与最先进的神经改进方法相竞争的性能。鉴于所提出的FER的通用性和有效性，它可以被用于任何编码器-解码器结构的神经构造方法[10], [16], [21]，以提高其解决路由问题的性能。虽然我们的FER是有效的，但仍有一些潜在的限制。1）它的最终性能可能取决于预训练的骨干模型的性能；2）它的提升对于高度优化的模型（例如，最先进的POMO）来说可能并不显著，正如第V-C节中所讨论的。在未来，我们将研究：1) 应用 FER 改善分布外概括性能；2) 考虑有效的改进方法；3) 应用 FER 解决其他组合优化问题，如 Bin Packing 和 Scheduling；4) 将 FER 推广到更大的问题规模。