【文献阅读笔记】Knowledge-guided end-to-end optimization framework based on reinforcement learning | 流水车间调度

1. 文献信息

Z. Pan, L. Wang, C. Dong and J. -f. Chen, "A Knowledge-Guided End-to-End Optimization Framework based on Reinforcement Learning for Flow Shop Scheduling," in IEEE Transactions on Industrial Informatics, doi: 10.1109/TII.2023.3282313.

2.  摘要

在信息化制造系统中,设计一个有效、高效、通用性强的端到端车间调度优化框架是一个新兴的课题。现有的端到端框架已经取得了令人满意的结果,如旅行商问题和车辆路线问题。但是,这些方法在求解车间调度等复杂问题时的性能还有待提高。针对置换流水车间调度问题(PFSP),提出了一种基于强化学习的知识导向端到端优化框架。首先,根据问题特征设计新的策略网络,处理不同规模的PFSP,实现端到端迭代生成;其次,利用训练过程中积累的知识,设计改进的基于策略的强化学习算法,提高训练质量;第三,通过局部搜索和监督学习的结合,引入知识导向的改进策略,提高策略的学习能力。仿真和比较结果表明,在有限的计算时间内,知识引导的端到端优化框架比各种常用的优化方法获得了更好的结果。

3. Introduction

为了释放工业信息学的潜力,车间调度的智能优化是信息化制造系统的重要组成部分[1-2]。置换流水车间调度问题作为最经典的车间调度问题之一,具有广泛的制造背景。研究求解PFSP的有效算法一直是学术界和工业界的一个重要课题。基于数学模型的精确方法由于具有NP难特性,理论上可以保证解的质量,但随着问题规模的增加,计算时间呈爆炸式增长[3-6]。启发式算法可以快速构建解,但由于缺乏全局优化,不能保证结果的质量。元启发式算法(如遗传算法)是一种基于搜索的方法,可以在可接受的计算时间内得到较好的解。然而,当解决一个新问题时,它们需要进行新的搜索,这很耗时。因此,开发一种新的优化框架,既能有效解决PFSP问题,又能对新问题具有良好的泛化能力,势在必行。

近年来,基于强化学习(RL)的端到端优化框架越来越受到人们的关注,并成为解决组合优化问题(COPs)的一个新兴课题。强化学习允许智能体通过试错探索解空间,并从与环境交互获得的反馈信息中学习。通过这种方式,智能体可以学习到问题的隐式结构特征,并具有数据自治的能力,训练后的智能体可以在数秒内解决一个新的实例。为了解决旅行推销员问题(traveling salesman problem, TSP), Bello等[7]引入了RL来训练指针网络,有效地避免了对高质量标记数据的依赖。Nazari等人[8]使用RL对策略网络进行训练,得到了一个训练好的模型来解决车辆路由问题(vehicle routing problem, VRP),而无需为每个新实例重新训练。此外,其他一些研究[9-12]在求解TSP或VRP时,以不同的方式提高了模型的性能。尽管基于RL的TSP和VRP端到端优化框架取得了成功,但它们很少应用于车间调度问题。

与TSP和VRP相比,车间调度问题缺乏明确的拓扑信息,使其更加复杂,给优化算法设计带来了挑战。此外,现有的工作主要集中在代理或政策网络的结构上,而不是在训练方法上。因此,直接应用现有的基于RL的端到端优化框架可能效果不佳,需要引入新的训练方法增强机制。

本文提出了一种基于RL (KRL)的知识导向端到端优化框架来解决PFSP问题。首先,我们设计了一个新的策略网络来处理不同规模的问题,并以迭代的端到端方式生成解。其次,提出了一种改进的基于策略的强化学习方法,利用训练过程中产生的知识来辅助提取PFSP的隐含结构特征。第三,将局部搜索与监督学习相结合,引入知识引导策略,增强策略的学习能力。仿真和比较结果表明,KRL在计算时间更短的情况下,可以获得比数学规划优化器(Gurobi)和元启发式优化器更好的结果,优于竞争启发式优化器( NEH)和现有的基于学习的端到端优化框架。

4. Related work 

对于调度问题,现有的基于RL的调度算法大多采用训练好的智能体选择启发式算法来生成解。例如,Ren等[13]选取了LPT (Longest-Processing-Time)规则和SPT (short - processing - time)规则等10条调度规则作为解决流水车间调度的动作。Du等[14]考虑到起重机运输和安装时间,采用深度Q网络解决柔性作业车间调度问题,设计了6条调度规则和1条插入策略作为动作。Lin等[15]采用深度Q网络来处理智能工厂中的调度问题。Agent选择了LPT、先进先出等7种启发式算法。Yang等人[16]引入了求解动态PFSP的优势actor-critical算法。采用LPT、SPT等调度规则确定调度顺序。Luo[17]设计了一种基于深度强化学习(Deep RL, DRL)的调度算法,并选择了6种调度启发式算法来解决动态柔性作业车间问题。最近,Wang等人[18]提出了一种新的DRL算法来解决非置换流水车间调度问题,并设计了14条调度规则作为动作。总的来说,上述基于RL的调度算法主要是通过选择专家设计的合适的启发式来解决调度问题。然而,这种方法的性能取决于启发式的质量,这限制了强化学习方法在算法性能方面的改进。

近年来,一些学者开始将强化学习设计为端到端生成解,而不依赖于启发式。对于柔性作业车间调度问题,Chen等人[19]和Song等人[2]引入析取图对问题进行建模,可以有效降低学习的复杂度。这样,就可以采用图神经网络和注意机制来提取问题的特征,并设计基于RL的方法来训练智能体。然而,很难建立这样的图模型来解决其他调度问题。对于工作流管理系统中的调度问题,Kintsakis等[20]采用递归神经网络(RNN)对调度问题进行建模,实现了从序列到元素的映射。Pan等[21]设计了一个解决PFSP的策略网络,并提出了改进策略来细化解决方案。综上所述,可以发现上述研究主要集中在agent或政策网络的结构上。现有的基于强化学习的训练方法还不成熟,需要进一步丰富。因此,这促使我们设计一个合适的策略网络来对问题进行建模,并提出了一种高效的基于强化学习的方法来同时训练智能体。

目前,RL和元启发式的集成是提高调度算法性能的一种很有前途的方法[22]。Shahrabi等[23]引入Q-learning来调整变邻域搜索的核心参数。Wang和Wang[24]设计了一个基于强化学习的策略代理,为协同模因算法选择合适的搜索算子。Zhao等[25]提出了一种基于RL的策略来平衡协同水波优化算法的勘探与开发。Chen等[26]应用RL自适应调节各子种群的个体数量和信息交换。在这些研究中,RL主要用于指导参数选择或辅助元启发式的搜索。然而,很少有研究考虑利用搜索的信息或知识来帮助强化学习的开发。我们总结了基于强化学习的制造调度智能优化,并指出元启发式和强化学习的协同作用是一个有前途的重要课题[27]。提取可用知识以提高强化学习的搜索效率有待进一步研究。因此,我们设计了一个基于RL和局部搜索的知识引导的端到端优化框架,以高效地提取问题的知识,并获得高质量的PFSP解。

 5. A knowledge-guided end-to-end optimization framework based on reinforcement learning

 知识导向的端到端优化框架如图2所示。策略网络是通过强化学习和监督学习进行训练的关键部分。在知识引导训练过程中,我们首先对网络生成的解进行评估。如果解的质量不令人满意,则执行局部搜索算子生成标签,并引入监督学习对策略网络进行优化;否则,使用RL优化策略网络。然后,我们使用调度解决方案更新数据集,并为下一步采样一批新的实例。经过训练后,策略网络可以通过迭代的端到端生成来求解新的实例。网络的输出可以作为下一代的输入,下一代迭代地为同一个问题生成新的解,直到达到最大代数。

Fig. 2. The knowledge-guided end-to-end optimization framework based on reinforcement learning

5.1 Policy network of PFSP 

结合PFSP的特点来设计策略网络,可以使智能体更有效地学习问题的结构特征。具体而言,由于每个作业i需要在m台机器上依次加工,并且作业ip_{ij},j=1,2,...,m,可以作为序列数据,因此我们采用RNN对加工时间进行建模。此外,我们希望通过考虑到目前为止探索的最佳解\pi ^*的信息来生成更好的解。因此,我们选择\pi ^*作为策略网络的输入数据,为智能体提供指导。

策略网络可以分为编码部分和解码部分。图3给出了策略网络的结构。图3中标记为“Concat”的符号表示向量的连接,标记为“Select”的符号表示从排列\pi ^*=\{\pi_1 ^*,\pi_2 ^*,...,\pi_n ^*\}中选择信息或\pi _{i-1}的处理时间。此外,d_i^*表示第i步RNN隐藏层的值。

在编码部分,m台机器上n个作业的处理时间p_{ij}可以嵌入为一个向量P*。首先将作业i的处理时间p_{ij}输入到嵌入层和RNN层。作业i在m台机器上的p_{ij},j=1,2,...,m将被处理为一个固定维向量h_{im}。然后,我们将h_{im},i=1,2,...,n输入卷积层,并得到输出向量P*。

 解码部分设计为生成处理序列\pi =\{\pi_1 ,\pi_2 ,...,\pi_n \}。解码部分的输入包括向量P*,每个作业的加工时间,以及表示训练过程中积累的知识的排列\pi ^*=\{\pi_1 ^*,\pi_2 ^*,...,\pi_n ^*\}

Fig. 3. The structure of the policy network

 

5.2 Improved policy-based RL 

 与Bello等人[7]和Nazari等人[8]类似,策略梯度可以设计如下:

 其中J(\theta |s)是给定输入实例s的预期C_{max}\theta表示网络的参数。同时,b(s)作为降低梯度方差的基线。通过蒙特卡罗采样,式(6)可近似为式(7),其中s_1,s_2,... s_j,...,s_BB个独立的同分布实例,并且\pi^j~p_\theta (\cdot |s_j)

 在[8]中,b(s_j)是由critic网络估计的。然而,由于解空间离散,很难准确地评估b(s_j)。因此,我们以策略网络生成的以s_j为例的最佳处理序列\pi ^{j*}=\{\pi_1 ^{j*},\pi_2 ^{j*},...,\pi_n ^{j*}\}中的C_{max} (\pi^{j*} |s_j)作为基线。该方法利用培训过程中产生的知识来提高培训质量。如果C_{max} (\pi^{j} |s_j)C_{max} (\pi^{j*} |s_j)好,概率p_\theta (\pi^j |s_j)应该增加。因此,梯度进一步近似为式(8)。

 综上所述,通过使用迄今为止探索的最佳解,将训练过程中积累的知识整合在一起,政策网络可以更好地捕捉结构特征,并在不依赖于critic网络的情况下生成更准确、更有效的解决方案。这种方法减轻了b(s_j)估计不准确的问题。

5.3 Knowledge-guided improvement strategy 

 随着问题规模的增加,由于问题的NP-hard性质,解空间可能变得非常大。仅仅使用强化学习来探索这个空间是不够有效的,因此我们提出了一种结合局部搜索和监督学习的策略,通过利用先验知识来提高策略的学习。这一战略的主要步骤概述如下:

简单地说,对策略网络生成的解进行局部搜索,可以快速获得标签。引入监督学习可以为算法提供有效的知识引导,从而提高学习效率和质量。 

5.4 Knowledge-guided training process 

算法1给出了KRL的训练过程。初始化策略网络参数后,随机生成N个具有\pi ^*的实例。使用这N个实例对网络进行G次迭代训练,然后在接下来的步骤中生成另外N个新实例进行训练。在每次迭代中,引入改进的基于策略的强化学习和知识引导的改进策略,并通过ADAM[28]优化算法对参数进行优化。一旦训练完成,就可以利用训练好的策略网络进行迭代的端到端生成。

6. Conclusions and future work

本文提出了一种基于强化学习的知识引导端到端优化框架来解决PFSP问题。根据该问题的特点,设计了一种新的策略网络,实现端到端迭代生成,求解不同作业数的PFSP。然后,设计了一种改进的基于策略的强化学习,以有效地利用在训练过程中积累的知识。第三,将局部搜索和监督学习相结合,引入知识引导改进策略,指导策略的学习。仿真和比较结果表明,知识导向的端到端优化框架在计算时间上优于数学规划优化器(Gurobi)和元启发式优化器(GA、MASC),优于竞争性启发式优化器(NEH)和现有的基于学习的端到端优化框架。

KRL通过使用经过训练的策略网络,可以快速为新实例生成满意的解,使其非常适合于紧急订单生产等实时调度场景。然而,当有足够的时间来确定处理顺序时,KRL的解质量与元启发式(如MASC)的解质量没有竞争力,尽管元启发式更耗时。这是目前基于强化学习的端到端优化框架的局限性,因此通过设计更高效的策略来提高端到端优化框架的性能仍然是一个开放的研究方向。

在未来,我们计划扩大我们的方法的范围,以解决其他类型的车间调度问题,如柔性车间调度和分布式车间调度。同时,利用端到端优化框架研究节能调度的多目标优化也是一个有趣的问题。此外,整合强化学习和元启发式方法来解决更复杂的组合优化问题仍然是一个有前途的研究方向。一种方法是在元启发式中引入有效的基于强化学习的策略来指导参数设置和操作算子选择。这样可以提高元启发式算法的效率。另一种方法是利用元启发式生成的大量训练数据来增强基于RL的调度方法。这些方向有可能推动组合优化领域的发展,并实现更高效和有效的调度解决方案。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值