(绪论和参考文献)基于深度强化学习的复杂作业车间调度问题研究

在这里插入图片描述

  最近有很多小伙伴都对我的博士学位论文比较感兴趣,今天就和大家分享一下绪论和参考文献部分,后续会陆续发布其他核心章节。关注公众号,后台回复“绪论”下载PDF!

  近年来出现的云计算、物联网、泛在信息、大数据技术等,以及信息物理融合系统(Cyber-Physical Systems, CPS)、工业4.0和中国制造2025的提出,将有力促进我国制造业的转型升级。企业已越来越多地采用物联网技术对车间现场进行实时监控,各种类型的数据在硬件技术条件基础上能够做到实时采集处理。一方面,数据采集与分析使得系统行为刻画得更加精准和透明及可视化,为调度系统做出正确响应提供准确的数据来源;另一方面,在数据实时处理下车间状态瞬息万变,这对调度系统的计算效率提出了更高的需求。调度系统需要针对现场各类突发事件进行“实时”处理,做出自适应调整,兼顾求解时间与求解质量,实现生产现场的闭环控制。目前调度领域采用的调度算法以启发式和元启发式算法为主,其中启发式算法虽然高效、简单、易用,但是因其短视性导致求解质量并不理想,且针对不同问题、不同目标,启发式算法性能千差万别,难于在不同调度环境下普遍适用;而元启发式算法虽然通过迭代搜索保证了求解质量,但是其搜索时间较长,并且其与问题结构存在强烈相关性,一旦问题结构发生变化,元启发式算法也需要进行重新设计,因而实时性和泛化性较差。所以,亟需综合启发式和元启发式各自的优点,在新的方法和理论基础上进行调度算法设计。

  本文的研究目标是面向智能制造车间构造一套兼顾求解时间与求解质量的强化学习算法,该算法能够针对车间的各种突发事件进行有效响应,短时间内给出满意调度方案。在综述了强化学习的发展现状和在调度求解中的应用现状后,提出了一个基于深度强化学习的调度策略优化设计框架,基于此框架,从研究问题由作业车间调度到柔性作业车间调度、约束条件由少量简单到大量复杂、训练算法由值函数法和策略梯度法到混合并行算法这三个方面逐层递进展开研究,深入地研究了基于深度强化学习的模糊作业车间调度、基于端到端深度强化学习的柔性作业车间调度和基于并行深度强化学习的柔性作业车间两级调度等关键问题。主要研究内容如下:
论文首先针对复杂作业车间调度问题,对传统析取图模型进行了约束扩展,增加了工序相关性约束、工序物流周转时间、工序准备时间、机床偏好和资源日历等表达,建立了赋时三维析取图模型。提出了基于深度强化学习的统一调度框架,该框架以建立的赋时三维析取图模型为调度环境,定义了调度方案所需要的输入数据和生成方法,调度代理不断与调度环境交互,得到的交互经验通过使用一定的强化学习算法进行离线训练得到调度策略,该策略可直接用于在线求解新的调度案例。

  然后针对工时不确定的模糊作业车间调度问题,采用考虑优先级经验回放的竞争双层深度Q网络(DDDQNPR)训练模型以在工时不确定的不同问题上实现泛化,利用深度卷积神经网络拟合状态动作值函数,创新性地将加工状态表达为多通道图像,把启发式调度规则作为调度决策可选行为,设计了一种等价奖励函数,采用值函数法强化学习进行离线训练,从而为每次调度决策选取最优组合行为策略。结果显示所提出的方法在静态案例,具有不同初始状态的调度案例和工时不确定的动态案例上仍然可以快速地获得鲁棒解。

  其次针对复杂多变的柔性作业车间调度问题,采用端到端的深度强化学习进行求解,融合改进的指针网络和注意力机制,使用循环神经网络对解码器网络进行建模。为了训练该网络以最小化制造期,使用了策略梯度法进行训练,训练后的模型可以实时地产生出连续动作序列作为调度解,而不需要对每个新的问题实例重新训练。通过实验证明,不同于DDDQNPR针对每种规模问题单独训练一个模型,该方法在只训练一个模型的情况下就可以在不同规模的调度案例上得到优于经典启发式规则的性能。

  接着针对具有多约束的实际柔性作业车间调度问题,提出了基于先验知识和后验知识的两级调度策略。首先通过基于先验知识的启发式方法快速得到初始解,采用“异步优势演员-评论家A3C”算法分别与多个调度环境的副本进行交互训练以获得后验知识指导交互调整,然后在第二级使用遗传算法进行自动优化求解。实验结果表明,强化学习代理可以针对目标工序给出交互建议,并能获得优于初始调度的交互结果,第二级的自动优化可以在短时间内获得更优的结果,验证了两级调度策略的可行性。

  最后针对某复杂产品制造车间的调度应用需求进行分析,结合理论研究成果,开发基于深度强化学习面向调度人员使用的调度应用系统,从基础数据管理、离线训练、在线应用、人机交互操作、结果展示和动态事件同步等几个方面讨论了具有多种复杂约束的调度一般流程。

  绪论部分对本文的研究背景进行了介绍,主要对基于强化学习的车间调度问题进行了综述总结。通过分析目前实际车间调度过程中存在的问题和不足,确定了本论文的的研究内容及意义。






































### 深度强化学习与群体智能 #### 概念定义 深度强化学习是一种结合了深度神经网络强化学习的方法,旨在通过试错的方式让代理(agent)学会如何采取行动以最大化累积奖励。这种方法特别适用于处理高维输入数据的任务,在游戏、机器人技术自动驾驶等领域取得了显著成就[^1]。 群体智能是指由多个简单个体组成的系统能够展现出复杂的集体行为的能力。这些个体遵循简单的规则并通过局部交互来实现全局目标。蚂蚁觅食路径优化就是一个典型的例子,展示了即使单个生物不具备复杂认知能力的情况下也能完成高效的任务解决方式。 #### 工作原理 在多智能体深度强化学习框架下,每个agent都配备了一个独立的学习机制用于评估环境状态并决定下一步动作。agents之间可以通过通信模块交换信息从而更好地协调彼此的行为模式。这种设置不仅提高了整体性能还增强了系统的鲁棒性适应性。 对于群体智能而言,其核心在于设计合理的本地规则使得大量相对简单的实体能够在没有中央控制器指导的前提下自发形成有序结构或达成特定目的。这通常涉及到自组织现象以及涌现性质的研究——即从微观层面看似乎随机无序的动作却能在宏观尺度上产生高度一致的结果。 #### 应用场景 - **军事领域**:利用深度强化学习算法训练无人作战平台执行侦察监视任务;借助群体智能理论开发集群式无人机编队控制系统提高战场态势感知能力打击精度[^2]。 - **交通管理**:基于马尔可夫决策过程模型预测车辆行驶轨迹规划最优路线减少拥堵状况;采用蜂群算法模拟城市公共交通调度提升运营效率服务质量. - **工业自动化**:构建智能制造车间内物料搬运AGV车队自动导航避障体系;运用蚁群寻优策略求解生产流程布局最优化问题降低制造成本增加经济效益. ```python import gymnasium as gym from stable_baselines3 import PPO env = gym.make('CartPole-v1') model = PPO('MlpPolicy', env, verbose=0) def train_model(): model.learn(total_timesteps=int(2e4)) train_model() ``` 此代码片段展示了一个使用稳定基线库(Stable Baselines)中的近端策略优化(PPO)算法训练CartPole环境中智能体的例子。该案例属于单一智能体设定下的经典控制任务之一,而当扩展至多智能体情形时,则需引入额外组件如通讯协议等以便于各成员间有效协作。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

松间沙路hba

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值