2021-06-15

该文章探讨了一种解决流水车间调度问题的新方法,目标是最小化最大完工时间。通过结合深度学习和强化学习,提出深度强化学习(DRL)模型进行问题建模。此外,设计了一种带反馈机制的迭代贪婪算法,利用网络输出作为初始解,并通过多种局部操作改进搜索性能。该算法根据性能反馈调整操作使用,最终得出优化的调度方案。研究强调了DRL在挖掘问题特征和决策优化方面的潜力。
摘要由CSDN通过智能技术生成

基于深度强化学习与迭代贪婪的流水车间调度优化
以最小化最大完工时间为目标, 提出求解流水车间调度
设计一种新的编码网络对问题进行建模
利用强化学习训练模型以获取优良输出结果
提出一种带反馈机制的迭代贪婪算法, 以网络的输出结果为初始解, 协同利用多种局部操作提高搜索能力, 并根据性能反馈来调节各操作的使用, 进而获得最终的调度解。
将深度学习与强化学习结合形成深度强化学习(Deepreinforcementlearning, DRL), 可自主挖掘问题的特征, 积累问题信息并进行决策优化, 有助于设计面向特定问题的有效优化方法.
1 调度问题描述
PFSP[1]考虑有n 个工件J = {J1, J2, . . . , Jn}在m台机器M = {M1, M2, . . . , Mm}上加工过程, 各工件Ji 均需以相同的顺序通过m个机器完成相应的操作{Oi1, Oi2, . . . , Oim}, 其中Oij表示工件Ji在机器Mj上的加工操作. 已知工件Ji 在机器Mj 上的加工时间pij , 需确定所有工件的合理加工顺序π = (π1, π2, . . . , πn), 使得所有工件的最大完成时间Cmax最小.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值