👨🎓个人主页:研学社的博客
💥💥💞💞欢迎来到本博客❤️❤️💥💥
🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。
⛳️座右铭:行百里者,半于九十。
📋📋📋本文目录如下:🎁🎁🎁
目录
💥1 概述
灵活作业车间调度问题(FJSP)在现代制造业中起着至关重要的作用,广泛用于各种制造工艺,例如半导体制造,汽车和纺织品制造(Brucker和Schlie,1990,Garey等人,1976,Jain和Meeran,1999,Kacem等人,2002)。它是一个广义作业车间调度问题(JSP),是计算机科学和运筹学中经典的NP-hard组合优化问题。在 FJSP 中,作业由一系列特定的连续操作组成,其中每个操作都分配给一组兼容机器中的合格机器,以优化一个或多个目标,例如 makespan、平均完成时间、最大流量时间、总延迟等(Chaudhry and Khan,2016,Xie et al.,2019)。与 JSP 问题相比,FJSP 更加复杂和灵活,因为属于作业的操作可以分配给一台或多台具有不同处理时间的兼容机器。
目前,解决NP-hard组合优化问题的现有方法可以归纳为两类:精确方法和近似方法。精确的方法,如数学规划,在整个解空间中寻找最优解,但由于它们的NP硬度,这些方法很难在合理的时间内解决大规模的调度问题(Li,Pan,&Liang,2010)。由于 FJSP 实例的棘手性,越来越多的近似方法(包括启发式、元启发式和机器学习技术)被开发出来来解决现实世界问题的实例。通常,近似方法可以在计算工作量和结果计划的质量之间实现良好的权衡。特别是群体智能(SI)和进化算法(EA),如遗传算法(GA),粒子群优化(PSO),蚁群优化(ACO),人工蜂群等,在解决FJSP实例方面显示出优势。
尽管与精确的数学优化方法相比,SI和EA可以在合理的时间内解决FJSP,但这些方法在实时调度环境中并不适用,因为当底层算法需要大量迭代时,它们仍然可能遭受不可预测的极长计算时间以获得满意的解决方案。调度规则作为启发式方法的委托,广泛应用于实时调度系统,如考虑动态事件的中断。调度规则通常具有较低的计算复杂性,并且比数学规划和元启发式更容易实现。通常,用于解决FJSP的调度规则可以分为两个基本类别:作业选择规则和机器选择规则。这些规则的设计和组合旨在最大限度地减少调度目标,例如平均流时间、平均迟到和最大迟到。然而,有效的调度规则通常需要大量的领域专业知识和试错(Zhang等人,2020),并且无法保证局部最优(Luo,2020)。
最近,深度强化学习(DRL)算法为解决具有共同特征的调度问题提供了一种可扩展的方法。一些基于学习的工作(Bengio, Lodi, & Prouvost, 2021)专注于其他类型的组合优化问题,例如旅行推销员问题(TSP)和车辆路线问题(VRP),但尚不清楚DRL已被用于研究复杂的调度问题,例如FJSP。这种知识差距促使我们为FJSP开发基于学习的方法。
通常,RL 代理根据以下行为与环境交互:代理首先接收状态st并选择一个操作一个t根据每个时间步的状态,然后获得奖励rt并转移到下一个州st+1.在 RL 的设置中,操作一个t从操作空间中选择一个.然而,本文用作业操作动作空间和机器动作空间构造了FJSP的分层多动作空间,这意味着RL的一般设置不能应用于FJSP。为了求解 FJSP,此 RL 设置涉及作业操作操作空间和机器操作空间。特别是,两个操作空间具有层次结构而不是平行结构。在每个时间步长,RL 代理从其符合条件的操作操作空间中选择一个操作操作,然后从其兼容的计算机操作空间中为所选操作选择计算机操作。兼容的机器操作空间与选定的操作操作相关。图1显示了FJSP的分层结构动作空间的示例。它包含四个以绿色显示的作业操作操作,每个作业操作操作都有一个紫色的兼容计算机操作空间。
本文提出了一个端到端的深度强化框架,用于自动学习使用图神经网络解决灵活的作业车间调度问题 (FJSP) 的策略。在 FJSP 环境中,强化代理需要在每个时间步中安排属于一组兼容计算机中合格计算机上作业的操作。这意味着代理需要同时控制多个操作。这种多作用问题被表述为多重马尔可夫决策过程(MMDP)。为了求解MMDP,我们提出了一种多指针图网络(MPGN)架构和一种称为多近端策略优化(multi-PPO)的训练算法,以学习两个子策略,包括作业操作操作策略和机器操作策略,用于将作业操作分配给机器。MPGN 体系结构由两个编码器-解码器组件组成,它们分别定义作业操作操作策略和机器操作策略,用于预测不同操作和机器上的概率分布。我们引入了FJSP的析取图表示,并使用图神经网络嵌入调度过程中遇到的局部状态。计算实验结果表明,该智能体能够学习高质量的调度策略,在求解质量和元启发式算法的运行时间上优于手工启发式调度规则。此外,在随机实例和基准实例上获得的结果表明,学习的策略在实际实例和具有多达 2000 个操作的更大规模实例上具有良好的泛化性能。
基于多动作深度强化学习的柔性车间调度研究文档
摘要
本文研究了一种基于多动作深度强化学习(Multi-Action Deep Reinforcement Learning, MA-DRL)的柔性车间调度问题(Flexible Job-Shop Scheduling Problem, FJSP)。传统的调度算法往往难以在实时事件发生后快速响应,并且忽略了历史数据的价值。为了克服这些缺陷,本文提出了一种新的调度方法,结合深度强化学习和多智能体技术,以提高柔性车间的调度效率和效果。实验结果表明,该方法在解决多目标柔性作业车间调度问题上表现出色,具备较高的可行性和有效性。
1. 引言
柔性生产已成为现代制造业的重要趋势,其通过先进制造设备实现多品种、小批量的生产方式,增强了制造企业的灵活性和应变能力。柔性作业车间调度问题(FJSP)作为传统作业车间调度问题的扩展,涉及复杂的工序和机器选择决策,是典型的NP-hard问题。传统的求解方法包括数学规划、启发式算法和元启发式算法,但这些方法在实时调度和大规模问题中存在不足。本文提出了一种基于多动作深度强化学习的调度方法,旨在通过智能化手段提升调度性能。
2. 问题描述与建模
2.1 问题描述
FJSP问题可以描述为:一个拥有m台机器的加工系统,需要处理n个工件。每个工件包含一道或多道工序,每道工序可以在一台或多台机器上加工,且加工时间取决于所分配的机器能力。本文的目标是最小化机器总负荷和最大化设备利用率。
2.2 数学建模
设J为工件集合,J={1,2,...,n};M为机器集合,M={1,2,...,m};Oi为工件i的工序集合,Oi={1,2,...,ni}。变量tilk表示工件i的第l道工序在机器k上的加工时间,Silk表示工件i的第l道工序在机器k上的开始加工时间。模型的主要约束包括:
- 工序间存在优先约束。
- 同一时刻一台机器只能加工一个工件。
- 工件总是合理加工,不存在返工现象。
3. 多动作深度强化学习框架
3.1 多动作空间设计
在FJSP中,存在两个决策点:工序排序和机床选择。为此,本文设计了一个分层多动作空间,包括工序动作空间和机床动作空间。每个时间步,代理先从工序动作空间中选择一个工序,再从机床动作空间中选择一个合适的机床。
3.2 状态编码与奖励定义
系统状态主要包括机器状态、工件状态及系统时间。状态编码包括每个机器的状态、每个工件的当前工序以及系统的总时间。奖励定义时,考虑到最小化机器总负荷和最大化设备利用率,奖励值设计为加工时间的倒数减去等待时间的惩罚。
3.3 多指针图网络(MPGN)架构
为解决所提出的MMDP问题,本文设计了一种多指针图网络(MPGN)架构,该架构由两个编码器-解码器组件组成,分别用于定义工件工序动作策略和机床动作策略。MPGN使用图神经网络嵌入调度过程中的局部状态,以预测不同工序和机床的概率分布。
4. 实验与结果
4.1 实验设置
实验使用标准FJSP案例进行测试,包括3个工件和5台柔性机器。学习过程包括1000个片段,每个片段包含所有工件从系统时刻0开始至全部完工的加工过程。
4.2 结果分析
实验结果表明,随着训练步骤的增加,总奖励逐渐提升,证明了代理学习到了高质量的调度策略。与启发式分派规则和元启发式算法相比,本文方法在求解质量和运行时间上均表现出优势。特别是在大规模案例(多达2000个工序)上,该方法展现出了良好的泛化性能。
5. 结论与展望
本文提出了一种基于多动作深度强化学习的柔性车间调度方法,通过设计分层多动作空间和MPGN架构,有效解决了FJSP中的多决策问题。实验结果表明,该方法在求解效率和求解质量上均优于传统方法。未来工作将进一步优化网络结构,提升在大规模问题上的调度效率,并探索更广泛的应用场景。
该文档基于当前的研究进展,详细阐述了基于多动作深度强化学习的柔性车间调度问题的建模、求解方法、实验验证及结果分析,旨在为相关领域的研究者提供参考和借鉴。
📚2 运行结果
🎉3 文献来源
部分理论来源于网络,如有侵权请联系删除。