(绪论和参考文献)基于深度强化学习的复杂作业车间调度问题研究

在这里插入图片描述

  最近有很多小伙伴都对我的博士学位论文比较感兴趣,今天就和大家分享一下绪论和参考文献部分,后续会陆续发布其他核心章节。关注公众号,后台回复“绪论”下载PDF!

  近年来出现的云计算、物联网、泛在信息、大数据技术等,以及信息物理融合系统(Cyber-Physical Systems, CPS)、工业4.0和中国制造2025的提出,将有力促进我国制造业的转型升级。企业已越来越多地采用物联网技术对车间现场进行实时监控,各种类型的数据在硬件技术条件基础上能够做到实时采集处理。一方面,数据采集与分析使得系统行为刻画得更加精准和透明及可视化,为调度系统做出正确响应提供准确的数据来源;另一方面,在数据实时处理下车间状态瞬息万变,这对调度系统的计算效率提出了更高的需求。调度系统需要针对现场各类突发事件进行“实时”处理,做出自适应调整,兼顾求解时间与求解质量,实现生产现场的闭环控制。目前调度领域采用的调度算法以启发式和元启发式算法为主,其中启发式算法虽然高效、简单、易用,但是因其短视性导致求解质量并不理想,且针对不同问题、不同目标,启发式算法性能千差万别,难于在不同调度环境下普遍适用;而元启发式算法虽然通过迭代搜索保证了求解质量,但是其搜索时间较长,并且其与问题结构存在强烈相关性,一旦问题结构发生变化,元启发式算法也需要进行重新设计,因而实时性和泛化性较差。所以,亟需综合启发式和元启发式各自的优点,在新的方法和理论基础上进行调度算法设计。

  本文的研究目标是面向智能制造车间构造一套兼顾求解时间与求解质量的强化学习算法,该算法能够针对车间的各种突发事件进行有效响应,短时间内给出满意调度方案。在综述了强化学习的发展现状和在调度求解中的应用现状后,提出了一个基于深度强化学习的调度策略优化设计框架,基于此框架,从研究问题由作业车间调度到柔性作业车间调度、约束条件由少量简单到大量复杂、训练算法由值函数法和策略梯度法到混合并行算法这三个方面逐层递进展开研究,深入地研究了基于深度强化学习的模糊作业车间调度、基于端到端深度强化学习的柔性作业车间调度和基于并行深度强化学习的柔性作业车间两级调度等关键问题。主要研究内容如下:
论文首先针对复杂作业车间调度问题,对传统析取图模型进行了约束扩展,增加了工序相关性约束、工序物流周转时间、工序准备时间、机床偏好和资源日历等表达,建立了赋时三维析取图模型。提出了基于深度强化学习的统一调度框架,该框架以建立的赋时三维析取图模型为调度环境,定义了调度方案所需要的输入数据和生成方法,调度代理不断与调度环境交互,得到的交互经验通过使用一定的强化学习算法进行离线训练得到调度策略,该策略可直接用于在线求解新的调度案例。

  然后针对工时不确定的模糊作业车间调度问题,采用考虑优先级经验回放的竞争双层深度Q网络(DDDQNPR)训练模型以在工时不确定的不同问题上实现泛化,利用深度卷积神经网络拟合状态动作值函数,创新性地将加工状态表达为多通道图像,把启发式调度规则作为调度决策可选行为,设计了一种等价奖励函数,采用值函数法强化学习进行离线训练,从而为每次调度决策选取最优组合行为策略。结果显示所提出的方法在静态案例,具有不同初始状态的调度案例和工时不确定的动态案例上仍然可以快速地获得鲁棒解。

  其次针对复杂多变的柔性作业车间调度问题,采用端到端的深度强化学习进行求解,融合改进的指针网络和注意力机制,使用循环神经网络对解码器网络进行建模。为了训练该网络以最小化制造期,使用了策略梯度法进行训练,训练后的模型可以实时地产生出连续动作序列作为调度解,而不需要对每个新的问题实例重新训练。通过实验证明,不同于DDDQNPR针对每种规模问题单独训练一个模型,该方法在只训练一个模型的情况下就可以在不同规模的调度案例上得到优于经典启发式规则的性能。

  接着针对具有多约束的实际柔性作业车间调度问题,提出了基于先验知识和后验知识的两级调度策略。首先通过基于先验知识的启发式方法快速得到初始解,采用“异步优势演员-评论家A3C”算法分别与多个调度环境的副本进行交互训练以获得后验知识指导交互调整,然后在第二级使用遗传算法进行自动优化求解。实验结果表明,强化学习代理可以针对目标工序给出交互建议,并能获得优于初始调度的交互结果,第二级的自动优化可以在短时间内获得更优的结果,验证了两级调度策略的可行性。

  最后针对某复杂产品制造车间的调度应用需求进行分析,结合理论研究成果,开发基于深度强化学习面向调度人员使用的调度应用系统,从基础数据管理、离线训练、在线应用、人机交互操作、结果展示和动态事件同步等几个方面讨论了具有多种复杂约束的调度一般流程。

  绪论部分对本文的研究背景进行了介绍,主要对基于强化学习的车间调度问题进行了综述总结。通过分析目前实际车间调度过程中存在的问题和不足,确定了本论文的的研究内容及意义。






































作业调度系统是计算机操作系统中的一个重要组成部分,用于管理和调度计算机系统中的作业。在课设的绪论部分,通常会介绍作业调度系统的基本概念和目标,以及作业调度系统在计算机系统中的作用和重要性。 以下是一个可能的作业调度系统课设绪论的例子: 绪论作业调度系统是计算机操作系统中的一个关键组件,用于管理和调度计算机系统中的作业作业调度系统的主要目标是合理地分配计算机系统的资源,以提高系统的吞吐量和效率。作业调度系统负责根据作业的优先级、资源需求和系统负载等因素,决定作业的执行顺序和分配资源的方式。 作业调度系统的设计和实现对于提高计算机系统的性能和效率至关重要。一个高效的作业调度系统可以最大限度地利用计算机系统的资源,提高作业的执行效率,减少作业的等待时间,从而提高整个系统的性能。作业调度系统还可以根据不同的调度算法和策略,实现对作业的优先级和资源分配的灵活控制,以满足不同应用场景和用户需求。 本课设旨在设计和实现一个作业调度系统,通过对作业调度和资源分配进行优化,提高计算机系统的性能和效率。在本课设中,我们将研究和实现不同的调度算法和策略,比较它们在不同场景下的性能表现,并根据实验结果进行系统的优化和改进。 通过本课设的学习和实践,我们将深入理解作业调度系统的原理和设计思想,掌握作业调度算法和策略的实现方法,提高对计算机系统性能优化的能力和实践经验。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

松间沙路hba

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值