（绪论和参考文献）基于深度强化学习的复杂作业车间调度问题研究

最新推荐文章于 2025-03-02 13:35:40 发布

松间沙路hba

最新推荐文章于 2025-03-02 13:35:40 发布

阅读量2.5k

点赞数 5

分类专栏：深度强化学习车间调度文章标签：深度强化学习车间调度

本文链接：https://blog.csdn.net/hba646333407/article/details/122141393

版权

车间调度同时被 2 个专栏收录

54 篇文章

订阅专栏

深度强化学习

26 篇文章

订阅专栏

在这里插入图片描述

最近有很多小伙伴都对我的博士学位论文比较感兴趣，今天就和大家分享一下绪论和参考文献部分，后续会陆续发布其他核心章节。关注公众号，后台回复“绪论”下载PDF！

近年来出现的云计算、物联网、泛在信息、大数据技术等，以及信息物理融合系统（Cyber-Physical Systems, CPS）、工业4.0和中国制造2025的提出，将有力促进我国制造业的转型升级。企业已越来越多地采用物联网技术对车间现场进行实时监控，各种类型的数据在硬件技术条件基础上能够做到实时采集处理。一方面，数据采集与分析使得系统行为刻画得更加精准和透明及可视化，为调度系统做出正确响应提供准确的数据来源；另一方面，在数据实时处理下车间状态瞬息万变，这对调度系统的计算效率提出了更高的需求。调度系统需要针对现场各类突发事件进行“实时”处理，做出自适应调整，兼顾求解时间与求解质量，实现生产现场的闭环控制。目前调度领域采用的调度算法以启发式和元启发式算法为主，其中启发式算法虽然高效、简单、易用，但是因其短视性导致求解质量并不理想，且针对不同问题、不同目标，启发式算法性能千差万别，难于在不同调度环境下普遍适用；而元启发式算法虽然通过迭代搜索保证了求解质量，但是其搜索时间较长，并且其与问题结构存在强烈相关性，一旦问题结构发生变化，元启发式算法也需要进行重新设计，因而实时性和泛化性较差。所以，亟需综合启发式和元启发式各自的优点，在新的方法和理论基础上进行调度算法设计。

本文的研究目标是面向智能制造车间构造一套兼顾求解时间与求解质量的强化学习算法，该算法能够针对车间的各种突发事件进行有效响应，短时间内给出满意调度方案。在综述了强化学习的发展现状和在调度求解中的应用现状后，提出了一个基于深度强化学习的调度策略优化设计框架，基于此框架，从研究问题由作业车间调度到柔性作业车间调度、约束条件由少量简单到大量复杂、训练算法由值函数法和策略梯度法到混合并行算法这三个方面逐层递进展开研究，深入地研究了基于深度强化学习的模糊作业车间调度、基于端到端深度强化学习的柔性作业车间调度和基于并行深度强化学习的柔性作业车间两级调度等关键问题。主要研究内容如下：
论文首先针对复杂作业车间调度问题，对传统析取图模型进行了约束扩展，增加了工序相关性约束、工序物流周转时间、工序准备时间、机床偏好和资源日历等表达，建立了赋时三维析取图模型。提出了基于深度强化学习的统一调度框架，该框架以建立的赋时三维析取图模型为调度环境，定义了调度方案所需要的输入数据和生成方法，调度代理不断与调度环境交互，得到的交互经验通过使用一定的强化学习算法进行离线训练得到调度策略，该策略可直接用于在线求解新的调度案例。

然后针对工时不确定的模糊作业车间调度问题，采用考虑优先级经验回放的竞争双层深度Q网络（DDDQNPR）训练模型以在工时不确定的不同问题上实现泛化，利用深度卷积神经网络拟合状态动作值函数，创新性地将加工状态表达为多通道图像，把启发式调度规则作为调度决策可选行为，设计了一种等价奖励函数，采用值函数法强化学习进行离线训练，从而为每次调度决策选取最优组合行为策略。结果显示所提出的方法在静态案例，具有不同初始状态的调度案例和工时不确定的动态案例上仍然可以快速地获得鲁棒解。

其次针对复杂多变的柔性作业车间调度问题，采用端到端的深度强化学习进行求解，融合改进的指针网络和注意力机制，使用循环神经网络对解码器网络进行建模。为了训练该网络以最小化制造期，使用了策略梯度法进行训练，训练后的模型可以实时地产生出连续动作序列作为调度解，而不需要对每个新的问题实例重新训练。通过实验证明，不同于DDDQNPR针对每种规模问题单独训练一个模型，该方法在只训练一个模型的情况下就可以在不同规模的调度案例上得到优于经典启发式规则的性能。

接着针对具有多约束的实际柔性作业车间调度问题，提出了基于先验知识和后验知识的两级调度策略。首先通过基于先验知识的启发式方法快速得到初始解，采用“异步优势演员-评论家A3C”算法分别与多个调度环境的副本进行交互训练以获得后验知识指导交互调整，然后在第二级使用遗传算法进行自动优化求解。实验结果表明，强化学习代理可以针对目标工序给出交互建议，并能获得优于初始调度的交互结果，第二级的自动优化可以在短时间内获得更优的结果，验证了两级调度策略的可行性。

最后针对某复杂产品制造车间的调度应用需求进行分析，结合理论研究成果，开发基于深度强化学习面向调度人员使用的调度应用系统，从基础数据管理、离线训练、在线应用、人机交互操作、结果展示和动态事件同步等几个方面讨论了具有多种复杂约束的调度一般流程。

绪论部分对本文的研究背景进行了介绍，主要对基于强化学习的车间调度问题进行了综述总结。通过分析目前实际车间调度过程中存在的问题和不足，确定了本论文的的研究内容及意义。