论文阅读--Automated design of search algorithms based on reinforcement learning

摘要

     近年来,自动算法设计在进化计算领域引起了越来越多的关注。主要的设计决策包括搜索算法中的选择启发式和进化算子。然而,大多数现有的研究都集中在进化算子的自动设计上,忽略了进化和替换的选择启发式,更不用说考虑所有的设计决策。这限制了所考虑算法的适用范围。本研究旨在利用强化学习技术,通过探索通用搜索框架中单个算法组件的影响以及这些多个算法组件之间的协同作用,系统地研究搜索算法的自动化设计。在带时间窗的带容量约束车辆路径问题的不同基准实例上进行了全面的计算实验,以评估所提出方法的有效性和通用性。这项研究有助于使用机器学习的自动算法设计中的知识发现,从而显著增强搜索算法的通用性。

论文概述

1.研究通过使用强化学习探索单个算法组件的影响以及这些组件之间的协同作用,系统地研究搜索算法的自动化设计。

2.研究在带时间窗的带容量限制的车辆路径问题(CVRPTW)的基准实例上进行了全面的计算实验,以评估所提出方法的有效性和通用性。

3.研究的主要贡献包括研究了算法的设计空间,提出了一种先进的强化学习技术,并证明了所提方法的有效性和通用性。

一、简介

强化学习通过解决三个关键研究问题来解决自动化算法设计问题

(1)进化算子学习:在优化过程中,在Evolution模块中自动选择和应用合适的进化算子,同时固定其他模块中的组件。算法搜索空间中的决策变量是进化算子。  

(2)选择启发式学习:在进化/替换选择模块中,在进化模块中固定组件的同时,在优化过程中自动选择并应用合适的选择启发式(搜索空间中的决策变量)。  

(3)同时学习进化算子和选择启发式:决策变量被定义为一对进化算子和选择启发式,在优化过程中自动选择和应用。

贡献

(1)通过对照实验,系统地研究了由GSF不同模块定义的算法的设计空间,并与文献中通常考虑的没有框架的ad hoc设计空间的设计空间进行了比较。  

(2)本研究提出了一种具有最大熵机制的先进强化学习技术,以处理新定义的具有连续状态空间和高维离散动作空间的学习问题,并用于自动算法设计。  

(3)在CVRPTW基准算例上对自动设计的算法进行分析,验证了所提方法将发现的知识迁移到求解新实例上的有效性和通用性。

二、相关工作

2 . 1 搜索算法的自动化设计

     统一通用搜索框架(GSF)的研究。该研究关注搜索算法的自动设计,并涉及三个关键问题:进化算子的学习、选择启发式的学习以及同时学习进化算子和选择启发式。

     之前的研究多侧重于在特定搜索算法模板内学习自动选择合适的进化算子,如遗传算法或模因算法。这些算法在解决不同问题上表现出良好的效果。而对于自动确定合适选择启发式的学习,在优化过程中却受到较少关注,尽管在一些问题上已有初步的尝试。此外,由于算法设计空间的增加,同时研究进化算子和选择启发式的学习工作非常有限,这提出了新的挑战。

     总体而言,现有研究更关注进化算子的学习,而忽略了其他设计决策,更不用说同时考虑它们。现有研究旨在确定特定搜索算法模板内的不同配置,因此,其输出结果是现有搜索算法的变体,而不是新的算法设计。与之不同,GSF支持了进化算子和选择启发式的组合,从而可以输出不同类型的新型搜索算法。

     在此研究中,GSF被用于系统地探索不同的设计空间,包括进化算子、选择启发式和两者的组合,以自动设计具有强化学习的搜索算法。

2 . 2 用于自动化算法设计的强化学习

    在自动化算法设计背景下,强化学习(RL)在解决不同的组合优化问题(COP)方面取得了良好的效果。

    在单独表格型RL方法中,Q-learning是最常用的方法。已经成功将其应用于解决旅行商问题(TSP)、工件排序与刀具切换问题、二次指派问题、车辆路径问题(VRP)以及混流装配线排序问题等。

     针对深度RL方法,基于值的方法(如DQN)被用于解决VRP、TSP、集装箱码头卡车路径问题和2D条带装箱问题等。而基于策略的RL方法(如PPO)则表现出了设计求解VRP搜索算法的优越性。

     在现有的Q学习研究中,用于表示状态的特征数量有限,无法进行有效的学习。因此需要更先进的RL技术来处理由关键特征表示的连续状态空间,并提供充分和有用的信息。为此,研究人员尝试使用深度RL技术,如DQN和PPO。但是,他们学习环境中动作空间维度较小。因此,需要研究基于值和基于策略的RL方法的优点,其中基于值的方法具有更好的样本效率(即充分利用每一个经验来产生和迅速改进策略),但不稳定;而基于策略的方法较稳定,但样本效率较低。

      本研究关注的自动化算法设计问题具有连续状态空间和高维离散动作空间。因此,需要一种先进的RL方法,继承了基于值和基于策略的RL技术的优点。最大熵机制被用于在学习过程中鼓励初期探索和后期利用,通过在RL目标函数中添加熵项实现,该目标函数最大化了策略的累积奖励和熵。

三、方法

     基于强化学习的自动化算法设计方法ACE(Automated Combinatorial Optimization with Reinforcement Learning)。该方法通过在进化算子和选择启发式的设计空间上进行学习,以最大化策略的累积奖励和熵来优化算法的性能。

     具体而言,ACE方法使用了一个演员-评论家架构,其中演员网络设计了一个策略网络来选择进化算子和选择启发式。同时,使用两个独立的评论家网络来消除高估,并通过选择两个评论家网络输出的最小值来计算Q值。 在学习过程中,ACE方法采用了熵项来平衡探索和利用的权衡。熵项通过引入噪声来促使智能体探索更多的动作,以防止陷入局部最优。熵系数通过固定方案、线性自适应方案和非线性自适应方案进行调整。

提出3种熵系数调整方案:

(1)固定方案( FS ):熵系数α设置为固定值,即α = 0.5 ·

(2)线性自适应方案( LAS ):线性减小α,即α t + 1 = αt⋅0.9998 ·

(3)非线性自适应方案( NLAS ):非线性减小α,即采用神经网络

四、实验与讨论

解决的研究问题:     

1.学习模型在处理选择启发式设计空间上的有效性        

2.学习模型在整个算法设计空间上的有效性和通用性,即在GSF的3个模块中同时考虑进化算子和选择启发式的设计。

为了解决第一个问题,在4.2节中验证了三种不同熵系数调整方案的ACE变体。在选择启发式和进化算子两方面,

实验环境: Intel ( R ) Xeon ( R ) W-2123 CPU @ 3.60 GHz处理器和32.0 GB内存

Java环境下实现,开发工具为IntelliJ IDEA 2020.3 . 3

为什么选用Java:因为它也被用于其他相关文献中广泛采用的框架,例如. HyFlex适用于超启发式算法,因此在未来的工作中支持灵活的进一步扩展和比较。

4 . 1 问题定义和数据集

       本研究中考虑的CVRPTW的两个目标在方程( 7 )中显示,其中NV是使用的车辆数,TD是总行驶距离。c = 1000在聚合函数中赋予第一个目标更高的优先级。在CVRPTW中,车辆必须在规定的时间窗内为每个客户提供服务,同时满足容量约束。

     图4给出了一个有9个顾客和3辆车的CVRPTW的解码器。基于方程( 7 ),本例CVRPTW解的适定性可以计算如下:

数据集

Solomon

该数据集由六组组成,分别是R1,R2,C1,C2,RC1,RC2。R1和R2实例中的客户是随机分布的,而C1和C2实例中的客户是聚集的。RC1和RC2实例包含随机分布和聚集的客户的组合。类型1 /类型2的集合分别具有窄/宽的时间窗和小/大的车辆容量。

选取的实例是不同类型的CVRPTW实例的代表,包括type - R1,type-R2,type - RC1和type - RC2。C1型和C2型实例不包含在本研究中,因为它们已经被现有的启发式方法处理过。在我们的初步实验中,我们提出的方法总是在C1和C2类型的实例上取得了文献中最知名的解决方案。

4 . 2 关于选择启发式的学习

4.2.1进化启发式选择的学习

     通过在进化启发式仅选择的设计空间上的学习,本部分研究了三种具有不同熵系数设置的ACE变体,即ACE _ FS,ACE _ NLAS和ACE _ LAS,分别采用固定/非线性/线性的熵系数调整方案。我们将另外两个模块中的组件固定为:oins _ bw为Evolution模块,h8为Selection for Replacement模块。这两个分量是最常被称为进化算子,也是文献中最常采用的替换启发式选择。

   

在图5中不同类型的CVRPTW实例上的结果表明,在整个训练过程中,仅对进化启发式的选择进行学习对搜索算法的性能没有显著影响。一个可能的原因是,虽然进化启发式的选择决定了应该选择哪个个体来产生新的解决方案,但它不会对进化模块中相同的固定算法组件产生太大的影响。换句话说,选择是如何在进化范围内进行的,对进化的影响是有限的。这支持了在设计搜索算法和文献中报道的结果时的人类经验,即选择启发式对搜索算法的性能影响较小,并且在设计这些启发式时花费的精力较少。

4.2.2关于替换启发式选择的学习

       ACE方法在仅选择替换启发式的设计空间上的有效性与ACE _ FS,ACE _ NLAS,ACE _ LAS和无学习方法进行了验证。其他两个模块中的组件固定为:oins _ bw for Evolution和h1 for Selection for Evolution,它们是最常被称为进化算子,也是文献中最常采用的进化启发式选择。

      如图6所示,所提出的ACE方法能够在整个训练过程中学习替换启发式的选择。然而,如表8 - 11所示,在测试过程中,基于RL的方法(即三个ACE变体)在所有实例上都没有明显优于无学习方法。这表明,尽管ACE方法能够相对较好地学习,但替换启发式的选择对算法性能的影响很小。一种可能的解释是,动作空间相对较小,学习范围有限。

4.3 选择启发式和进化算子的学习

4.3.1习模型的有效性

选择启发式和进化算子的搜索空间学习上

1.ACE _ LAS _均优于其他算法

2.ACE _ FS _和ACE _ NLAS _在训练过程中均表现出竞争性能

3.说明自适应系数调整方案可以在搜索过程的前期引导智能体探索新的动作,同时在搜索过程的后期也会利用最优的动作

4.ACE _ LAS _ each相对于ACE _ NLAS _ each的优势在于简单的线性系数调整耗时少得多,因此可以利用更多的计算时间来进化种群,增强搜索性能

ACE _ LAS _在大多数情况下都获得了比其他两个ACE变体更好的解质量。 ACE变体之间的唯一区别在于熵系数调整方案 线性熵系数调整方案有助于在学习过程中平衡探索和利用之间的关系

       值得注意的是,在所选的R1类型实例中,唯一的差异在于客户时间窗密度,即R101和R102的客户时间窗比例分别为100 %和75 %,而R103和R104的客户时间窗比例分别为50 %和25 %。在图7中,随着时间窗口密度(即具有更宽松的约束)的减小,所有ACE变体的起始点均增加。这表明ACE方法在约束较宽松的实例上学习效果更好。一个可能的原因是,具有较宽松约束的实例的解空间由更多的可行解候选组成,这有助于学习技术来发现某些知识或模式。

尽管起点更差,但所有ACE方法在选择启发式和进化算子(两者)的搜索空间上的表现均优于仅在进化算子(算子)上的表现。 选择启发式和进化算子之间的积极协同作用,即它们之间的适当协作显著地提高了搜索算法的性能。

4.3.2对所设计的最佳搜索算法进行组件分析

以R1类算例为例,分别为ACE _ LAS _ Both方法在进化选择启发式(即:图8)、进化算子(即:图9)和替换选择启发式(即:图10)上学习到的最佳设计搜索算法中最适应的算法组件。

4.3.3学习模型的通用性

1.证明了基于强化学习的模型具有良好的通用性

2.GAP '在除实例RC101外的大多数实例上都小于3 %

3.ACE _ LAS _在大多数情况下都取得了最好的' AVG ',' BEST '和' GAP '

五、结论和未来工作

结论:

    在本研究中,我们在一个统一的通用搜索框架内系统地研究了机器学习自动算法设计中的两个研究问题,即单个算法组件的影响和多个组件的协同作用。将算法设计的搜索空间从单个组件扩展到多个组件,形成了高维的算法设计决策空间。因此,在算法设计问题上,设计了一种具有自适应最大熵机制的先进强化学习方法,具有连续的状态空间和高维离散的动作空间。

    在有容量限制的带时间窗车辆路径问题上评估了学习模型的性能,即它们的有效性和通用性。关于单个组件的影响的结果表明,选择启发式对搜索算法的性能影响较小这支持了人类在设计搜索算法时的经验和文献中报道的发现。对多个组件协同作用的学习表明,选择启发式和进化算子之间的适当协作可以显著提高算法性能。对比实验表明,人类经验可以在一定程度上帮助算法设计,但在处理更大的算法设计空间时,机器学习技术会超越人类经验。

未来工作:

      在进一步的工作中,所提出的学习模型可以扩展到在扩展的多目标通用搜索框架的支持下研究多目标搜索算法的自动化设计。将所提出的自动化设计方法应用于更复杂的VRP变体和现实问题,如多车场车辆路径问题、随机车辆路径问题或带时间窗的时变绿色车辆路径问题,将是一个有趣的挑战。进一步的研究还可以探讨如何将可重用的知识转移到大规模车辆路径问题的搜索算法设计中,甚至转移到其他复杂的组合优化问题中。

文章具体翻译明天发

  • 24
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值