论文阅读|《用强化学习求解带插单的动态FJSP》

最新推荐文章于 2025-03-17 13:48:58 发布

码丽莲梦露

最新推荐文章于 2025-03-17 13:48:58 发布

阅读量5.6k

点赞数 6

分类专栏：论文阅读与实现 # 柔性作业车间调度 # 强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/crazy_girl_me/article/details/117618802

版权

论文阅读与实现同时被 3 个专栏收录

39 篇文章

订阅专栏

26 篇文章

订阅专栏

柔性作业车间调度

9 篇文章

订阅专栏

本文探讨了如何使用深度强化学习（DRL）解决带有新工作插入的灵活工作流调度问题，旨在最小化总拖期。研究中提出了七个通用特征表示调度状态，设计了六种调度规则，并利用深度Q网络（DQN）和DoubleDQN优化策略选择。此外，还引入了软目标权值更新策略以改进收敛速度。实验结果显示DRL在此类问题上的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《Dynamic scheduling for flexible job shop with new job insertions by deep reinforcement learning》

Applied Soft Computing Journal/2020
在这里插入图片描述
这篇文章使用DRL来解决带新件插入的DFJSP问题，目标为最小化总拖期，贡献如下：
（1）使用在[0，1]中取值的七个通用特征表示每个重调度点的状态。
（2）设计了六个组合规则（动作）来确定下一步要处理的工序和分配的机器。
（3）提出了一种深度Q网络（DQN），获取每个规则的state–action值，根据该值可以在不同的决策点上选择最合适的调度规则。
（4）实验

1 Q-learning 和Deep Q-learning 的概念

1.1 RL 和 Q-learning

强化学习可以看作一个五元组的马尔可夫过程模型（MDP），在MDP中，智能体根据周围环境选择合适的行动。强化学习的目标是找到一个最优策略使得总过程的奖励值最优。
在这里插入图片描述

1.2 深度Q-network 和深度Q-learning

为了解决标准Q学习的维度灾难，用神经网络来近似表示Q-learning的Q函数，设置了当前Q和目标Q和Replay Memory,Replay memory中存放每一次试错的行动、状态、奖励值和下一状态，以此来训练目标Q，并设置每隔C步更新当前Q，即目标Q赋值给当前Q,其中，目标值的计算式如下：
在这里插入图片描述

1.3 Double DQN

Double DQN更改了DQN的目标值计算公式，为：
在这里插入图片描述
伪代码如下：

1.4 软目标权值更新策略

以往当前Q的更新，是设置定步长C，当C值的选取具有一定的不确定性，会影响收敛速度，因此，这篇文章对此进行了修改，即在每一步按权重进行更新：
在这里插入图片描述

2 问题描述

以最大拖期为目标的普通FJSP

3 算法设计

3.1 整体框架

在这里插入图片描述

3.2 状态定义

状态由7种参数组成，这组成Q函数神经网络的输入。
（1）平均机器使用率
（2）机器利用率的标准差
（3）工序完成率
（4）工件完成率
（5）工件完成率标准差
（6）拖延率
（7）平均拖延率

3.3 调度规则

提出了6种调度策略，分别作为神经网络的输出。

3.4 奖励函数的定义

奖励函数详情见伪代码：
在这里插入图片描述

4 算法总流程

在这里插入图片描述

评论 12

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

码丽莲梦露 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。