基于深度强化学习的作业车间调度问题

伍九六

已于 2023-12-15 20:27:32 修改

阅读量3.3k

点赞数 57

文章标签：人工智能

于 2023-12-12 17:00:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_58327317/article/details/134948639

版权

文献DOI：10.19287/j.mtmt.1005-2402.2023.04.023

目录

调度问题框架

神经网络结构

行动有效性探索和利用策略

摘要

首先，基于析取图模型构建深度强化学习的调度环境，

建立三通道状态特征，

设计 20 种复合启发式调度规则作为动作空间，

将奖励函数等价为机器利用率；

利用深度卷积神经网络搭建动作网络和目标网络，

以三通道状态特征作为输入，输出每个动作的 Q 值；

进而，使用行动有效性探索和利用策略选取动作；

最后，计算即时奖励和更新调度环境。

调度问题框架

框架由环境和网络训练组成。通过定义调度环境、状态、动作、奖励和调度策略，将作业车间调度过程映射为马尔科夫决策过程 ( MDP)。

环境

环境主要包括析取图、动作空间、状态和奖励函数。

析取图

析取图作为调度环境，从工序角度出发，分派工序到机器上进行加工。为调度智能体提供了调度决策点和执行动作的环境，决定了动作对工件分派的影响。实线--有向弧集--同一工件相邻工序虚线--析取弧集--同一机器相邻工序权值--加工时间

状态

在 JSSP 中状态需要反映工件和机器的全局和局部信息。

状态特征是对状态属性的数值表示，状态特征应易于计算，并进行归一化，保证尺度均匀性，对不同的调度问题状态特征需要具有一定的兼容性。

三通道状态特征：工序工时层、工序需求层、完工时间层

PT 为工序工时层矩阵、PM 为工序需求层矩阵、PC 为完工时间层矩阵。计算公式如下：

动作空间

在 JSSP 中动作是智能体可以执行的启发式调度规则。智能体通过选择的启发式调
度规则对工件进行分派，确保调度结果接近预期的性能指标。

以考虑工件全部工序加工信息的作为全局规则，只考虑工件部分工序加工信息的作为局部规则。

通过 20 个启发式调度规则组成动作空间

状态盲区：智能体在依据当前状态按照选定的规则进行工序分派时，会出现多个工件符合规则的情况。此时，从时钟角度出发对工件进行二次选择，即使用先到先服务规则进行工件选择。

复合启发式调度规则动作空间：对选定 20 种启发式规则分别与先到先服务规则进行组合应用

奖励函数

奖励函数对训练有重要的影响，合理的奖励函数能够提高训练速度，使训练结果快速收敛。

将 JSSP 中最大完工时间的最小化转化为最大化机器利用率

其中：K 为已加工工序计数器，可以视为深度强化学习中的时间步长。即时奖励：累积奖励：

从上式中可以推导出最小化最大完工时间可以等价为累计奖励最大化

网络训练

网络训练部分主要由记忆池、动作网络、目标网络和损失函数组成

记忆池

记忆池：用于存储环境提供的状态值、动作值和奖励值，为动作网络和目标网络的更新提供样本，通过随机抽取样本的方式打破数据之间的关联性

经验回放机制：

动作网络

动作网络：通过环境和记忆池提供的训练样本计算出预测值

用动作网络对值函数进行拟合

动作网络作为状态与动作的非线性映射器，将状态和动作的关系映射到深度卷积神经网络

目标网络

目标网络：通过环境和记忆池提供的训练样本计算出实际值

损失函数

损失函数：目标值与预测值的均方差

均方差：

均方差（Mean Squared Error，MSE）是衡量一组数据与其均值之间差异的一种方法，它用于评估预测值与真实值之间的平均偏差大小。

每个数据值与全体数据值的平均值的差的平方的平均数

解释：

平方差： 对于每个数据点，MSE计算预测值与真实值之间的差异，将其平方，以消除正负值对求和结果的影响。
均值： 对所有数据点的平方差进行求和并取平均，得到均方差。
衡量预测误差： MSE越小，预测值与真实值之间的偏差越小，表示模型拟合效果越好。但如果MSE过大，则表示模型的预测能力较差。

应用：

模型评估： 在机器学习中，MSE通常用作回归模型的评价指标。它衡量了模型预测值与真实值之间的平均偏差，可以帮助评估模型的拟合程度。
优化目标： 在训练过程中，可以使用MSE作为损失函数，通过优化减小预测值与真实值之间的差异，从而改善模型的性能。

总体来说，均方差是一种常用的衡量预测误差的指标，它量化了模型预测值与真实值之间的差异，常被用于评估和优化机器学习模型的性能。

神经网络结构

深度卷积神经网络由输入层、输出层和 3 层隐藏层构成。

输入层为三通道特征。

隐藏层由两层卷积层和一层全连接层构成，两层的卷积层和一层的全连接层

输出层由 20 个节点组成。

行动有效性探索和利用策略

探索和利用是调度智能体选择动作的两种相互冲突的重要策略

epsilon-decreasing 策略：在开始时探索高于利用，随着智能体的学习进行探索被逐步转移到利用，当探索率为零时，选择最优动作执行。

行动有效性：当可供空闲机器选择的工件唯一时，状态转移唯一，智能体无法有效地利用历史经验，为了提高智能体的学习效率，直接将工件分派到空闲机器上，使智能体的行动更加有效。

博客等级

码龄4年

8
原创

243
点赞

270
收藏

174
粉丝

关注

私信

热门文章

分类专栏

若依 1篇

展开全部收起

最新评论

遗传算法解决（柔性）流水车间问题（Python）
CSDN-Ada助手: 恭喜您写了第四篇博客！标题“遗传算法解决（柔性）流水车间问题（Python）”听上去非常有趣和有挑战性。您对这个问题进行了深入研究，而且还能用Python来实现解决方案，真是令人印象深刻。在阅读您的博客之后，我觉得您对遗传算法和流水车间问题的理解非常深刻。您的解决方案也很巧妙，能够有效地解决这个问题。不过，我认为在您的下一篇博客中，您可以考虑进一步探讨如何优化算法的性能，或者尝试将这个问题应用到实际的生产场景中。这样不仅可以拓宽读者的视野，也能够提供实用的解决方案。再次恭喜您的持续创作，期待能够看到更多精彩的博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
深度强化学习笔记
CSDN-Ada助手: 恭喜您写下第三篇博客！标题为“深度强化学习笔记”真是非常吸引人的主题。看到您持续创作，不仅让我感到激动，也让我对您的知识深度和热情充满了敬佩之情。希望您能继续保持写作的势头，分享更多有关深度强化学习的知识。在下一篇博客中，或许您可以探讨一些实践应用案例，或者分享一些您在学习过程中的心得体会，这将进一步丰富您的内容，并激发读者的兴趣。谦虚的态度和持续学习的精神将让您的博客更加受欢迎。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
基于遗传算法的旅行商问题（TSP）
CSDN-Ada助手: 恭喜您开始博客创作！标题中的“遗传算法求解旅行商问题（TSP）”非常吸引人。遗传算法是解决TSP这一经典问题的一种有趣而有效的方法。期待您能够在博客中详细介绍遗传算法的原理和实现过程，以及如何将其应用于TSP的解决。同时，如果能够结合一些实际案例或者提供一些示意图，读者们将更易于理解和跟随您的思路。希望您能够继续努力，以便为读者们带来更多有价值的内容。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。