DRL加强ALNS

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

关键词

Adaptive Large Neighborhood Search, Deep Reinforcement Learning, Proximal Policy Optimization, Time-dependent Orienteering Problem with Stochastic Weights and Time Windows

文章概述

本文介绍了一种使用深度强化学习控制自适应大邻域搜索的在线方法。作者使用了Proximal Policy Optimization (PPO)算法来训练一个DRL模型,该模型根据当前状态选择动作,并通过奖励函数来鼓励模型寻找最佳解决方案。作者将该方法应用于解决具有随机权重和时间窗口的时变定向问题,并通过实验证明了该方法的有效性。

研究背景

本篇文章的研究背景是解决组合优化问题(COP)的方法。组合优化问题是在离散决策变量的大空间中寻找高质量解决方案的问题,通常是NP难的。传统的解决方法通常依赖于手工设计的启发式算法,这些算法快速且能够做出计算成本较高的决策,但缺乏找到好解决方案的保证。大邻域搜索(LNS)是一种常用的启发式算法,通过连续的破坏和修复操作逐步改进解决方案,从而实现对更好候选解的搜索。自适应大邻域搜索(ALNS)是LNS的扩展,允许在同一次搜索中使用多个破坏和修复操作。在ALNS中,每个破坏和修复操作都被赋予一个权重,该权重决定了在搜索的每个迭代中如何选择操作。这些权重根据操作的表现动态调整,表现更好的操作被赋予更高的权重,因此在下一次搜索中更有可能被选择。因此,该框架旨在针对搜索的每个状态应用最合适的破坏和修复操作,潜在地利用多个启发式算法的优势,寻找解决方案的好解。然而,ALNS的权重选择过程的一个限制是只考虑操作的过去表现,不能利用当前搜索过程状态与操作选择之间的短期依赖关系。另一个限制是操作的性能取决于其参数配置,而参数配置往往具有挑战性。为了解决这些问题,本文提出了一种基于深度强化学习(DRL)的方法,该方法在搜索过程中选择启发式算法、调整参数并控制接受准则。该方法旨在根据搜索的状态学习如何配置ALNS的下一次迭代,以获得优化问题的好解决方案。

研究思路

本研究的研究思路是通过深度强化学习(DRL)方法来控制自适应大邻域搜索(ALNS)算法,以解决组合优化问题。ALNS算法在搜索过程中自适应地选择各种启发式方法,利用它们的优势来找到优化问题的良好解决方案。然而,ALNS的有效性取决于其选择和接受参数的正确配置。为了解决这个问题,本研究提出了一种DRL方法,该方法可以根据搜索状态学习如何配置ALNS的下一次迭代,以获得优化问题的良好解决方案。

具体而言,本研究的方法使用DRL算法中的Proximal Policy Optimization(PPO)算法来训练一个DRL模型,该模型可以根据当前的搜索状态选择启发式方法、调整参数并控制接受准则。该模型以当前状态作为输入,并输出不同行动空间的概率分布。奖励被配置为鼓励模型在线配置ALNS方法以寻找最佳解决方案。

为了处理多离散行动空间,本研究对策略网络的输出层进行了特定调整,使用多个输出层来生成各个离散行动空间的策略分布。PPO算法使用两个损失函数,一个是策略损失,用于衡量新策略与旧策略之间的差异,另一个是值函数损失,用于衡量预测状态值与实际折扣奖励之间的误差。

TD-OPSWTW是指具有随机权重和时间窗口的时变定向问题(Time-dependent Orienteering Problem with Stochastic Weights and Time Windows)。它是经典的旅行推销员问题(TSP)的一种更加现实的变体。在TD-OPSWTW中,每个顾客都被表示为一个节点,具有一个奖励和一个预定的时间窗口,目标是在限制的旅行时间和时间窗口约束下最大化收集的奖励。该问题的解决方案需要考虑到顾客之间的旅行时间、时间窗口和奖励等因素。

本研究将该方法应用于具有随机权重和时间窗口的时变定向问题(TD-OPSWTW),该问题是经典旅行商问题(TSP)的一种更现实的变体。TD-OPSWTW问题具有未知的位置之间的旅行成本、有限的旅行时间以及顾客访问的时间窗口等挑战。本研究通过学习销毁和修复操作来构建ALNS算法,并通过DRL方法来控制ALNS的行为,以获得最佳解决方案。

研究结果表明,本研究的方法优于传统的ALNS算法和经过贝叶斯优化调整的ALNS算法。与两种最先进的DRL方法相比,本研究的方法在训练所需的观测次数更少的情况下获得了更好的解决方案。

研究结果

根据给出的文本,我们可以得出以下关于每个步骤的研究结果的信息:

1. 实验步骤:在TD-OPSWTW问题的不同实例上评估了不同算法的性能。使用了ALNS-Vanilla、ALNS-BO和DR-ALNS三种方法,并根据每种方法找到的最佳解进行评估。

2. 结果:在表格3中,给出了不同方法在不同问题实例大小上的表现,包括每种方法和问题实例大小的平均最佳解性能以及找到最佳解的次数。结果表明,DR-ALNS方法在最佳平均解方面优于其他基准方法,并且比其他方法更经常找到最佳解。

3. 论证实验假设:根据给出的信息,我们无法确定是否有明确的实验假设。文本中没有提到关于实验假设的具体信息。

总的来说,该文献提供了不同算法在解决TD-OPSWTW问题上的性能比较结果,并表明DR-ALNS方法在找到最佳解方面表现最好。然而,关于实验假设的具体论证信息在文本中并未提及。

研究结论与讨论

1、研究结论:本文的研究结论是通过使用深度强化学习来在线控制自适应大邻域搜索算法(ALNS),可以有效地提高解决时间依赖的定向问题的性能。通过训练一个DRL模型来控制ALNS算法的参数,可以在不需要手工特征工程的情况下,获得更好的解决方案。

2、研究的创新性:本研究的创新之处在于将深度强化学习应用于在线控制ALNS算法,以解决时间依赖的定向问题。通过将ALNS算法的参数作为动作,使用DRL模型来选择最佳动作,从而提高了解决问题的效果。此外,该方法是问题无关的,可以应用于其他类型的问题,而不需要进行手工特征工程。

3、研究的不足之处:本研究的不足之处包括:
- 本文只针对时间依赖的定向问题进行了实验验证,对于其他类型的问题尚未进行研究。
- 在解决大规模问题时,DRL模型的训练时间可能会很长,需要更多的计算资源和时间。
- 本文没有对ALNS算法的具体参数进行详细讨论和分析,可能会影响算法的性能。

4、研究展望:根据这项研究,后续可能的研究方向包括:
- 进一步研究和应用DRL模型来解决其他类型的组合优化问题,如旅行商问题、车辆路径问题等。
- 探索更高效的训练方法和算法,以减少DRL模型的训练时间。
- 对ALNS算法的参数进行更深入的研究和分析,以进一步提高算法的性能和效果。

5、研究意义:本研究的理论意义和实践意义包括:
- 在理论上,本研究证明了将深度强化学习应用于在线控制算法的有效性,为解决组合优化问题提供了新的思路和方法。
- 在实践上,本研究提供了一种自适应的解决方案,可以根据问题的特点和要求,动态地调整算法的参数,从而获得更好的解决方案。
- 该方法的问题无关性使其具有广泛的适用性,可以应用于各种组合优化问题,为实际应用提供了一种高效的求解方法。

文章中提到的ALNS tuned with Bayesian Optimization是一种通过贝叶斯优化来调整ALNS算法参数的方法。ALNS算法是一种自适应的大邻域搜索算法,通过选择和调整不同的破坏和修复操作符来寻找优化问题的好解决方案。然而,ALNS的有效性取决于其选择和接受参数的正确配置。为了解决这个问题,文章提出了一种使用贝叶斯优化来调整ALNS参数的方法。

具体而言,作者使用了SMAC3方法来进行参数调优。SMAC3是一种结合了贝叶斯优化和随机森林回归的超参数调优方法。作者在给定的实例大小上生成了25个实例,并将它们用于调优过程。作者调整了权重因子ωi、衰减参数θ、破坏程度dod和冷却计划的初始温度Tstart。作者考虑的配置范围分别为每个ωi的[0, 50]、衰减参数θ的[0.5, 1]、破坏程度dod的10%到100%以及初始温度Tstart的[0, 5]。作者将ω4的值配置为0,并使用贝叶斯优化从这些范围中绘制参数配置,并在提供的调优实例上进行评估,给定ALNS搜索的100次迭代。作者进行了25次独立运行,对于最小的两个实例大小(20个和50个顾客),每次运行持续12小时,对于100个顾客的实例,持续24小时。在这些独立运行中找到的最佳配置被用作基准。

结果显示,获得的配置与ALNS-Vanilla获得的配置相当。因此,观察到与最初提出的权重比例[17]相似的权重因子比例。此外,我们注意到随着实例大小的增长,初始温度Tstart也会增加。这个趋势与[16]中提出的经验法则一致,该法则根据初始解的质量设置初始温度。初始温度的增加是由于较大的实例在TD-OPSWTW问题的解质量方面具有更大的倾向。

综上所述,ALNS tuned with Bayesian Optimization是一种通过贝叶斯优化来调整ALNS算法参数的方法,可以帮助提高算法的性能和解决复杂优化问题。

在这里插入图片描述
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值