深度强化学习
文章平均质量分 93
松间沙路hba
智能优化算法,深度学习,强化学习,生产调度,智能制造
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2025年强化学习求解车间调度文章综述
本文系统综述了2025年深度强化学习在车间调度领域的206篇文献。研究发现:中国团队贡献了80%的研究成果,华中科技大学为最高产机构;柔性作业车间调度(FJSP)占比最高(55-60篇),PPO算法应用最广(约55篇)。研究呈现出三大趋势:RL与进化算法深度融合、多智能体RL兴起、绿色调度目标引入。GNN成为主流状态表示方法,六种RL融合范式被归纳总结。未来研究方向包括大规模可扩展性、离线RL应用和工业实际部署等。该领域正从理想化benchmark向复杂工业约束建模演进,反映了智能制造对智能调度技术的迫切需原创 2026-04-13 21:24:32 · 779 阅读 · 0 评论 -
基于图强化学习的人机共生制造动态调度方法:九类扰动事件下的高效响应策略
摘要: 本文提出一种基于图强化学习的人机共生制造动态调度方法,针对九类常见扰动(如订单变更、机器故障、工人变动等)构建响应机制。通过层次聚合图神经网络(HAGNN)提取异构制造资源特征,结合近端策略优化(PPO)算法实现端到端决策。实验验证表明,该方法能有效处理多重扰动,在完工时间等指标上显著优于传统规则调度和遗传算法。研究为复杂扰动环境下的智能制造调度提供了新思路。 (字数:149字)原创 2026-01-28 14:32:25 · 1879 阅读 · 0 评论 -
作业车间调度中深度强化学习的状态特征设计框架
本文提出了一种基于深度强化学习的作业车间调度状态特征设计理论框架,解决了现有方法依赖经验而缺乏理论指导的问题。该框架包含两个核心视角:动力学方程状态(DE状态)用于精确描述系统动态,基于名义奖励预测的状态值状态(PSVNR状态)用于预测最终目标值。作者将理论框架实例化为马尔可夫决策过程,设计了结合DE状态和PSVNR状态的特征表示,并提出"未完全优化下界"和图增强Transformer模型两项创新。实验表明,该方法在求解质量和泛化能力上优于传统启发式和现有深度强化学习方法,为调度问题的状原创 2026-01-28 13:55:44 · 1772 阅读 · 0 评论 -
面向动态订单插入的大规模混合模型生产系统深度强化学习实时调度方法
今天分享一篇由上海交通大学王东海博士发表在《Computers & Operations Research》的文章《面向动态订单插入的大规模混合模型生产系统深度强化学习实时调度方法》原创 2026-01-04 12:52:42 · 1811 阅读 · 0 评论 -
2024年强化学习求解调度文章大盘点
从1995年最早将强化学习用于车间调度问题后,在随后的几年里,强化学习一直不温不火,最主要的原因是一般的强化学习无法解决状态空间爆炸的问题,直到2018年深度强化学习开始进军调度领域,并在随后的几年里爆发式增长,在2024年,更是惊人地出现了至少186篇相关文章,相比于2023年,在等方面,成果更加丰富和显著。总体而言,2024年DRL在调度领域的研究呈现趋势。原创 2025-03-17 13:48:58 · 2179 阅读 · 0 评论 -
基于图神经网络深度强化学习的柔性机器人单元调度
柔性机器人单元在柔性化和定制化制造中起着至关重要的作用。有效的调度策略可以显著减少最大完工时间,提高生产效率。作者引入了一种创新的基于深度强化学习(DRL)的端到端实时调度方法,以最小化柔性机器人单元的最大完工时间,在异构析取图模型中通过特定析取弧考虑运输因素。在方法上,DRL利用图神经网络(GNN)进行模型特征提取,并采用近端策略优化(PPO)训练调度智能体,以更好地利用运输机器人的能力,减少系统阻塞和死锁。原创 2025-01-12 11:55:03 · 2037 阅读 · 0 评论 -
2023年强化学习求解调度文章大汇总
2024龍年开工的第一篇原创文章,给大家带来2023年基于强化学习求解调度的文章汇总(去年也分享过2022年强化学习求解车间调度文章大汇总)。在读博期间研究的也是这个方向,所以平时也一直在关注着相关动态,今天分享出来供大家参考。原创 2024-02-19 13:40:15 · 2735 阅读 · 0 评论 -
2022年强化学习求解调度问题文章大汇总
023年开工的第一篇文章,给大家带来2022年基于强化学习求解调度的文章汇总。在读博期间研究的也是这个方向,所以平时也一直在关注着相关动态,今天分享出来供大家参考,文章原文关注公众号后回复“DRL调度”获取。原创 2023-01-31 10:05:39 · 5608 阅读 · 0 评论 -
基于深度强化学习的联想电脑制造调度(Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning)
本篇论文作为商简智能的最新研究成果,发表于运筹学顶刊《INFORMS JOURNAL ON APPLIED ANALYTICS》,首次将深度强化学习落地于大规模制造调度场景,该先进排程项目入围国际运筹学权威机构INFORMS运筹学应用最高奖——Franz Edelman Award,并作为制造业企业技术转型典型案例被人民日报等多家媒体广泛报道。原创 2023-01-03 10:53:51 · 3505 阅读 · 0 评论 -
基于强化学习和析取图模型的统一调度框架
框架定义 基于析取图模型的复杂车间调度问题存在两类决策点:一是需要根据工序排序规则(Job sequencing rule,JSR)对就绪任务集合中的所有工序进行优先级排序,选择最优先的工序进行加工;二是需要根据机床分派规则(Machine assignment rule,MAR),为之前选择的最优先工序从其所有可选机床集合中选择最优先的机床。在一般的作业车间调度问题中,由于机床提前确定,只存在JSR一个决策点,而在柔性作业车间调度问题中这两类决策点均存在。本文针对作业车间和柔性作业车间调度问题进行研究原创 2022-02-20 12:33:03 · 3496 阅读 · 1 评论 -
基于端到端深度强化学习的柔性作业车间调度问题研究
获取更多资讯,赶快关注公众号(名称:智能制造与智能调度,公众号:deeprlscheduler)吧!文章目录端到端深度强化学习调度框架端到端深度强化学习求解状态、动作和奖励网络模型拟采用的神经网络模型训练方法实验结果训练细节结果分析 柔性作业车间调度问题是组合优化中的经典问题,也是一种真实生产环境下非常常见的组织形式。本文章针对上一篇文章中()存在的局限性,提出一个基于三维析取图分派的端到端深度强化学习调度框架。该框架采用改进的指针网络**,根据选择的调度特征对所有待调度工序进行编码,通过注意力机制.原创 2022-01-13 14:25:06 · 4603 阅读 · 2 评论 -
深度强化学习调度研究的心路历程
获取更多资讯,赶快关注上面的公众号吧!文章目录萌芽开题闭关学习研究源码环境搭建第一篇论文-[基于深度强化学习的模糊作业车间调度问题研究](https://blog.csdn.net/hba646333407/article/details/110046802)想法成熟基于端到端深度强化学习的柔性作业车间调度问题研究基于并行深度强化学习的柔性作业车间两级调度研究写在最后 2021年5月19日,我顺利完成了博士学位论文答辩,之前我已经发布了现场答辩的视频,读博7年期间主要研究如何面向复杂作业车间进行智能.原创 2022-01-04 17:14:33 · 6651 阅读 · 5 评论 -
(绪论和参考文献)基于深度强化学习的复杂作业车间调度问题研究
最近有很多小伙伴都对我的博士学位论文比较感兴趣,今天就和大家分享一下绪论和参考文献部分,后续会陆续发布其他核心章节。关注公众号,后台回复“绪论”下载PDF! 近年来出现的云计算、物联网、泛在信息、大数据技术等,以及信息物理融合系统(Cyber-Physical Systems, CPS)、工业4.0和中国制造2025的提出,将有力促进我国制造业的转型升级。企业已越来越多地采用物联网技术对车间现场进行实时监控,各种类型的数据在硬件技术条件基础上能够做到实时采集处理。一方面,数据采集与分析使得系统行为.原创 2021-12-25 12:01:49 · 3587 阅读 · 6 评论 -
(原文)基于甘特图的深度强化学习方法求解端到端在线重调度
获取更多资讯,赶快关注上面的公众号吧!文章目录介绍关注公众号,后台回复"甘特图"获取原文新方法重调度环境优化目标重调度策略重调度方法调度状态表达调度动作奖励函数训练算法马尔可夫决策过程实验结果实验1:紧急插单实验2:物料延迟到达实验3:标准案例介绍关注公众号,后台回复"甘特图"获取原文 面对车间的工艺柔性、生产复杂性和订单的高可变性等影响制造工艺计划和响应的动态因素,就要求人类具有独特的认知能力,以确保对可能影响计划可行性和性能的干扰和意外事件(如紧急插单、物料延期或短缺、机床故障、质量不合格等).原创 2021-12-09 21:22:47 · 3104 阅读 · 1 评论 -
博士论文答辩||基于深度强化学习的复杂作业车间调度问题研究
获取更多资讯,赶快关注上面的公众号吧!文章目录学生时代终将落下帷幕,新的开始等待我继续努力,加油吧,不辜自我,不负时代,感激之情溢于言表,高兴的,难过的,都值得铭记,因为这是我的青春!完整PPT可扫码关注公众号后,回复“PPT”获取下载链接! 博士论文答辩||基于深度强化学习的复杂作业车间调度问题研究 摘要 近年来出现的云计算、物联网、泛在信息、大数据技术等,以及信息物理.原创 2021-08-15 10:49:43 · 8982 阅读 · 13 评论 -
基于深度强化学习的自适应作业车间调度问题研究
获取更多资讯,赶快关注公众号(名称:智能制造与智能调度,公众号:deeprlscheduler)吧!文章目录1、论文贡献2、论文框架3、调度环境4、调度问题转化状态特征表达系统动作定义报酬函数设计探索和利用策略5、深度强化学习调度算法6、超参数灵敏度分析7、训练过程8、实验结果今天给大家带来一篇我们关于使用深度强化学习求解作业车间调度问题的新作:Han, B. A., & Yang, J. J.(2020). Research on Adaptive Job Shop Scheduling P.原创 2020-11-24 11:03:08 · 18967 阅读 · 38 评论 -
第十五章 第十五章 异步A3C(Asynchronous Advantage Actor-Critic,A3C)-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-04-23 19:16:42 · 4334 阅读 · 0 评论 -
第十四章 深度确定性策略梯度(Deep Deterministic Policy Gradient Algorithms,DDPG)-强化学习理论学习与代码实现(强化学习导论第二版)
近年来,将深度学习与强化学习相结合的方法取得了显著的进展,“深度Q网络”(Deep Q Network, DQN)算法能够在许多雅达利(Atari)视频游戏中使用未经处理的像素作为输入,就达到人类水平的性能,其中使用深度神经网络函数逼近器来估计动作值函数。 然而,DQN在解决高维观察空间...原创 2020-04-18 12:39:53 · 5645 阅读 · 0 评论 -
第十三章 确定性策略梯度(Deterministic Policy Gradient Algorithms,DPG)-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-04-17 17:53:41 · 7309 阅读 · 0 评论 -
第十二章 演员评论家(Actor-Critic)-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-04-03 09:53:54 · 6016 阅读 · 0 评论 -
第十一章 策略梯度(Policy Gradient)-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-03-17 18:31:27 · 4709 阅读 · 0 评论 -
第六章 函数逼近-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-03-16 17:46:26 · 4548 阅读 · 4 评论 -
第五章 基于时序差分和Q学习的无模型预测与控制-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!文章目录第五章 基于时序差分和Q学习的无模型预测与控制5.1 学习目标5.2 TD预测-*- coding: utf-8 -*--*- coding: utf-8 -*-第五章 基于时序差分和Q学习的无模型预测与控制在强化学习所有的思想中,时序差分(TD)无疑是最核心、最新颖的思想,时序差分结合了蒙特卡洛方法和动态规划法的思想,时序差分和蒙特卡洛方法一...原创 2020-03-16 17:43:31 · 4041 阅读 · 0 评论 -
【Tensorlayer系列】深度强化学习之FrozenLake介绍及表格型Q学习求解
获取更多资讯,赶快关注上面的公众号吧!Tensorlayer深度强化学习系列:1、Tensorlayer深度强化学习之Tensorlayer安装文章目录2.4 强化学习环境 gym 介绍2.4.1 安装2.4.2 FrozenLake-v02.4.2.1 描述2.4.2.2 代码2.5 强化学习算法2.5.1 表格 Q 学习2.5.1.1 代码2.4 强化学习环境 gym 介绍 这一...原创 2020-02-22 22:11:00 · 7036 阅读 · 0 评论 -
Tensorlayer深度强化学习之Tensorlayer安装
获取更多资讯,赶快关注上面的公众号吧!文章目录第一章 Tensorlayer 介绍第二章 Tensorlayer 安装2.1 安装 TensorFlow2.2 安装 TensorLayer2.3 GPU 支持2.3.1 安装 Microsoft Visual2.3.2 安装2.3.3 安装 cuDNN2.3.4 验证第一章 Tensorlayer 介绍 TensorLayer 是从 Go...原创 2020-02-21 17:53:46 · 6533 阅读 · 0 评论 -
第十章 深度强化学习-Prioritized Replay DQN
获取更多资讯,赶快关注上面的公众号吧!文章目录第十章 深度强化学习-Prioritized Replay DQN10.1 介绍-说明经验回放随机采样存在的问题10.2 优先级回放10.2.1 一个启发性的例子10.2.2 基于TD误差的优先级排序10.2.3 随机优先级10.2.4 降低偏差10.3 ATARI实验结果参考文献第十章 深度强化学习-Prioritized Replay D...原创 2020-01-03 23:10:03 · 5028 阅读 · 1 评论 -
第九章 深度强化学习-Double DQN
获取更多资讯,赶快关注上面的公众号吧!文章目录第九章 深度强化学习-Double DQN9.1 回顾9.2 过高估计9.3 Double DQNReferences第九章 深度强化学习-Double DQN 目前流行的Q-learning算法会过高的估计在特定条件下的动作值。实际上,在实践中,这种过高的估计是否常见,是否会损害性能,以及是否可以预防,这些以前都不知道。于是Hado van...原创 2019-12-13 19:45:06 · 3783 阅读 · 0 评论 -
第八章 深度强化学习-Nature深度Q网络(Nature DQN)
获取更多资讯,赶快关注上面的公众号吧!文章目录第八章 深度强化学习-Nature深度Q网络(Nature DQN)8.1 Nature DQN网络模型8.2 Nature DQN算法8.3 实验结果8.3.1 参数设置8.3.2 算法效果8.4 结论参考文献第八章 深度强化学习-Nature深度Q网络(Nature DQN) 在上一章中我们讨论了DQN(NIPS 2013)[1]的算法原...原创 2019-12-09 14:42:54 · 6139 阅读 · 0 评论 -
【深度学习小常识】CPU(中央处理器)和GPU(图像处理器)的区别
获取更多资讯,赶快关注上面的公众号吧! 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-S...转载 2019-12-06 18:24:50 · 3775 阅读 · 0 评论 -
第七章 深度强化学习-深度Q网络系列1(Deep Q-Networks,DQN)
获取更多资讯,赶快关注上面的公众号吧!文章目录第七章 深度强化学习-深度Q网络7.1 学习目标7.2 深度学习和强化学习的区别7.3 DQN原理7.4 DQN算法7.4.1 预处理7.4.2 结构7.5 实验结果7.5.1 训练和稳定性7.5.2 可视化值函数7.5.3 对比7.6 感悟参 考 文 献第七章 深度强化学习-深度Q网络2013年Mnih等[1]提出了第一个使用强化学习从...原创 2019-12-05 19:17:12 · 6777 阅读 · 0 评论
分享