论文阅读|《用强化学习求解带插单的动态FJSP》

本文探讨了如何使用深度强化学习(DRL)解决带有新工作插入的灵活工作流调度问题,旨在最小化总拖期。研究中提出了七个通用特征表示调度状态,设计了六种调度规则,并利用深度Q网络(DQN)和DoubleDQN优化策略选择。此外,还引入了软目标权值更新策略以改进收敛速度。实验结果显示DRL在此类问题上的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《Dynamic scheduling for flexible job shop with new job insertions by deep reinforcement learning》

Applied Soft Computing Journal/2020
在这里插入图片描述
这篇文章使用DRL来解决带新件插入的DFJSP问题,目标为最小化总拖期,贡献如下:
(1)使用在[0,1]中取值的七个通用特征表示每个重调度点的状态。
(2)设计了六个组合规则(动作)来确定下一步要处理的工序和分配的机器。
(3)提出了一种深度Q网络(DQN),获取每个规则的state–action值,根据该值可以在不同的决策点上选择最合适的调度规则。
(4)实验

1 Q-learning 和Deep Q-learning 的概念

1.1 RL 和 Q-learning

强化学习可以看作一个五元组的马尔可夫过程模型(MDP),在MDP中,智能体根据周围环境选择合适的行动。强化学习的目标是找到一个最优策略使得总过程的奖励值最优。
在这里插入图片描述

1.2 深度Q-network 和深度Q-learning

为了解决标准Q学习的维度灾难,用神经网络来近似表示Q-learning的Q函数,设置了当前Q和目标Q和Replay Memory,Replay memory中存放每一次试错的行动、状态、奖励值和下一状态,以此来训练目标Q,并设置每隔C步更新当前Q,即目标Q赋值给当前Q,其中,目标值的计算式如下:
在这里插入图片描述

1.3 Double DQN

Double DQN更改了DQN的目标值计算公式,为:
在这里插入图片描述
伪代码如下:
在这里插入图片描述

1.4 软目标权值更新策略

以往当前Q的更新,是设置定步长C,当C值的选取具有一定的不确定性,会影响收敛速度,因此,这篇文章对此进行了修改,即在每一步按权重进行更新:
在这里插入图片描述

2 问题描述

以最大拖期为目标的普通FJSP

3 算法设计

3.1 整体框架

在这里插入图片描述

3.2 状态定义

状态由7种参数组成,这组成Q函数神经网络的输入。
(1)平均机器使用率
(2)机器利用率的标准差
(3)工序完成率
(4)工件完成率
(5)工件完成率标准差
(6)拖延率
(7)平均拖延率

3.3 调度规则

提出了6种调度策略,分别作为神经网络的输出。

3.4 奖励函数的定义

奖励函数详情见伪代码:
在这里插入图片描述

4 算法总流程

在这里插入图片描述

评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码丽莲梦露

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值