深度强化学习
文章平均质量分 92
松间沙路hba
智能优化算法,深度学习,强化学习,生产调度,智能制造
展开
-
2023年强化学习求解调度文章大汇总
2024龍年开工的第一篇原创文章,给大家带来2023年基于强化学习求解调度的文章汇总(去年也分享过2022年强化学习求解车间调度文章大汇总)。在读博期间研究的也是这个方向,所以平时也一直在关注着相关动态,今天分享出来供大家参考。原创 2024-02-19 13:40:15 · 1327 阅读 · 0 评论 -
2022年强化学习求解调度问题文章大汇总
023年开工的第一篇文章,给大家带来2022年基于强化学习求解调度的文章汇总。在读博期间研究的也是这个方向,所以平时也一直在关注着相关动态,今天分享出来供大家参考,文章原文关注公众号后回复“DRL调度”获取。原创 2023-01-31 10:05:39 · 3760 阅读 · 0 评论 -
基于深度强化学习的联想电脑制造调度(Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning)
本篇论文作为商简智能的最新研究成果,发表于运筹学顶刊《INFORMS JOURNAL ON APPLIED ANALYTICS》,首次将深度强化学习落地于大规模制造调度场景,该先进排程项目入围国际运筹学权威机构INFORMS运筹学应用最高奖——Franz Edelman Award,并作为制造业企业技术转型典型案例被人民日报等多家媒体广泛报道。原创 2023-01-03 10:53:51 · 2014 阅读 · 0 评论 -
基于强化学习和析取图模型的统一调度框架
框架定义 基于析取图模型的复杂车间调度问题存在两类决策点:一是需要根据工序排序规则(Job sequencing rule,JSR)对就绪任务集合中的所有工序进行优先级排序,选择最优先的工序进行加工;二是需要根据机床分派规则(Machine assignment rule,MAR),为之前选择的最优先工序从其所有可选机床集合中选择最优先的机床。在一般的作业车间调度问题中,由于机床提前确定,只存在JSR一个决策点,而在柔性作业车间调度问题中这两类决策点均存在。本文针对作业车间和柔性作业车间调度问题进行研究原创 2022-02-20 12:33:03 · 2313 阅读 · 1 评论 -
基于端到端深度强化学习的柔性作业车间调度问题研究
获取更多资讯,赶快关注公众号(名称:智能制造与智能调度,公众号:deeprlscheduler)吧!文章目录端到端深度强化学习调度框架端到端深度强化学习求解状态、动作和奖励网络模型拟采用的神经网络模型训练方法实验结果训练细节结果分析 柔性作业车间调度问题是组合优化中的经典问题,也是一种真实生产环境下非常常见的组织形式。本文章针对上一篇文章中()存在的局限性,提出一个基于三维析取图分派的端到端深度强化学习调度框架。该框架采用改进的指针网络**,根据选择的调度特征对所有待调度工序进行编码,通过注意力机制.原创 2022-01-13 14:25:06 · 3000 阅读 · 2 评论 -
深度强化学习调度研究的心路历程
获取更多资讯,赶快关注上面的公众号吧!文章目录萌芽开题闭关学习研究源码环境搭建第一篇论文-[基于深度强化学习的模糊作业车间调度问题研究](https://blog.csdn.net/hba646333407/article/details/110046802)想法成熟基于端到端深度强化学习的柔性作业车间调度问题研究基于并行深度强化学习的柔性作业车间两级调度研究写在最后 2021年5月19日,我顺利完成了博士学位论文答辩,之前我已经发布了现场答辩的视频,读博7年期间主要研究如何面向复杂作业车间进行智能.原创 2022-01-04 17:14:33 · 4691 阅读 · 5 评论 -
(绪论和参考文献)基于深度强化学习的复杂作业车间调度问题研究
最近有很多小伙伴都对我的博士学位论文比较感兴趣,今天就和大家分享一下绪论和参考文献部分,后续会陆续发布其他核心章节。关注公众号,后台回复“绪论”下载PDF! 近年来出现的云计算、物联网、泛在信息、大数据技术等,以及信息物理融合系统(Cyber-Physical Systems, CPS)、工业4.0和中国制造2025的提出,将有力促进我国制造业的转型升级。企业已越来越多地采用物联网技术对车间现场进行实时监控,各种类型的数据在硬件技术条件基础上能够做到实时采集处理。一方面,数据采集与分析使得系统行为.原创 2021-12-25 12:01:49 · 2211 阅读 · 6 评论 -
(原文)基于甘特图的深度强化学习方法求解端到端在线重调度
获取更多资讯,赶快关注上面的公众号吧!文章目录介绍关注公众号,后台回复"甘特图"获取原文新方法重调度环境优化目标重调度策略重调度方法调度状态表达调度动作奖励函数训练算法马尔可夫决策过程实验结果实验1:紧急插单实验2:物料延迟到达实验3:标准案例介绍关注公众号,后台回复"甘特图"获取原文 面对车间的工艺柔性、生产复杂性和订单的高可变性等影响制造工艺计划和响应的动态因素,就要求人类具有独特的认知能力,以确保对可能影响计划可行性和性能的干扰和意外事件(如紧急插单、物料延期或短缺、机床故障、质量不合格等).原创 2021-12-09 21:22:47 · 1953 阅读 · 1 评论 -
博士论文答辩||基于深度强化学习的复杂作业车间调度问题研究
获取更多资讯,赶快关注上面的公众号吧!文章目录学生时代终将落下帷幕,新的开始等待我继续努力,加油吧,不辜自我,不负时代,感激之情溢于言表,高兴的,难过的,都值得铭记,因为这是我的青春!完整PPT可扫码关注公众号后,回复“PPT”获取下载链接! 博士论文答辩||基于深度强化学习的复杂作业车间调度问题研究 摘要 近年来出现的云计算、物联网、泛在信息、大数据技术等,以及信息物理.原创 2021-08-15 10:49:43 · 6834 阅读 · 13 评论 -
基于深度强化学习的自适应作业车间调度问题研究
获取更多资讯,赶快关注公众号(名称:智能制造与智能调度,公众号:deeprlscheduler)吧!文章目录1、论文贡献2、论文框架3、调度环境4、调度问题转化状态特征表达系统动作定义报酬函数设计探索和利用策略5、深度强化学习调度算法6、超参数灵敏度分析7、训练过程8、实验结果今天给大家带来一篇我们关于使用深度强化学习求解作业车间调度问题的新作:Han, B. A., & Yang, J. J.(2020). Research on Adaptive Job Shop Scheduling P.原创 2020-11-24 11:03:08 · 16408 阅读 · 32 评论 -
第十五章 第十五章 异步A3C(Asynchronous Advantage Actor-Critic,A3C)-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-04-23 19:16:42 · 3421 阅读 · 0 评论 -
第十四章 深度确定性策略梯度(Deep Deterministic Policy Gradient Algorithms,DDPG)-强化学习理论学习与代码实现(强化学习导论第二版)
近年来,将深度学习与强化学习相结合的方法取得了显著的进展,“深度Q网络”(Deep Q Network, DQN)算法能够在许多雅达利(Atari)视频游戏中使用未经处理的像素作为输入,就达到人类水平的性能,其中使用深度神经网络函数逼近器来估计动作值函数。 然而,DQN在解决高维观察空间...原创 2020-04-18 12:39:53 · 4195 阅读 · 0 评论 -
第十三章 确定性策略梯度(Deterministic Policy Gradient Algorithms,DPG)-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-04-17 17:53:41 · 5244 阅读 · 0 评论 -
第十二章 演员评论家(Actor-Critic)-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-04-03 09:53:54 · 4653 阅读 · 0 评论 -
第十一章 策略梯度(Policy Gradient)-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-03-17 18:31:27 · 3673 阅读 · 0 评论 -
第六章 函数逼近-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-03-16 17:46:26 · 3505 阅读 · 4 评论 -
第五章 基于时序差分和Q学习的无模型预测与控制-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!文章目录第五章 基于时序差分和Q学习的无模型预测与控制5.1 学习目标5.2 TD预测-*- coding: utf-8 -*--*- coding: utf-8 -*-第五章 基于时序差分和Q学习的无模型预测与控制在强化学习所有的思想中,时序差分(TD)无疑是最核心、最新颖的思想,时序差分结合了蒙特卡洛方法和动态规划法的思想,时序差分和蒙特卡洛方法一...原创 2020-03-16 17:43:31 · 3105 阅读 · 0 评论 -
【Tensorlayer系列】深度强化学习之FrozenLake介绍及表格型Q学习求解
获取更多资讯,赶快关注上面的公众号吧!Tensorlayer深度强化学习系列:1、Tensorlayer深度强化学习之Tensorlayer安装文章目录2.4 强化学习环境 gym 介绍2.4.1 安装2.4.2 FrozenLake-v02.4.2.1 描述2.4.2.2 代码2.5 强化学习算法2.5.1 表格 Q 学习2.5.1.1 代码2.4 强化学习环境 gym 介绍 这一...原创 2020-02-22 22:11:00 · 5785 阅读 · 0 评论 -
Tensorlayer深度强化学习之Tensorlayer安装
获取更多资讯,赶快关注上面的公众号吧!文章目录第一章 Tensorlayer 介绍第二章 Tensorlayer 安装2.1 安装 TensorFlow2.2 安装 TensorLayer2.3 GPU 支持2.3.1 安装 Microsoft Visual2.3.2 安装2.3.3 安装 cuDNN2.3.4 验证第一章 Tensorlayer 介绍 TensorLayer 是从 Go...原创 2020-02-21 17:53:46 · 5304 阅读 · 0 评论 -
第十章 深度强化学习-Prioritized Replay DQN
获取更多资讯,赶快关注上面的公众号吧!文章目录第十章 深度强化学习-Prioritized Replay DQN10.1 介绍-说明经验回放随机采样存在的问题10.2 优先级回放10.2.1 一个启发性的例子10.2.2 基于TD误差的优先级排序10.2.3 随机优先级10.2.4 降低偏差10.3 ATARI实验结果参考文献第十章 深度强化学习-Prioritized Replay D...原创 2020-01-03 23:10:03 · 3998 阅读 · 1 评论 -
第九章 深度强化学习-Double DQN
获取更多资讯,赶快关注上面的公众号吧!文章目录第九章 深度强化学习-Double DQN9.1 回顾9.2 过高估计9.3 Double DQNReferences第九章 深度强化学习-Double DQN 目前流行的Q-learning算法会过高的估计在特定条件下的动作值。实际上,在实践中,这种过高的估计是否常见,是否会损害性能,以及是否可以预防,这些以前都不知道。于是Hado van...原创 2019-12-13 19:45:06 · 2889 阅读 · 0 评论 -
第八章 深度强化学习-Nature深度Q网络(Nature DQN)
获取更多资讯,赶快关注上面的公众号吧!文章目录第八章 深度强化学习-Nature深度Q网络(Nature DQN)8.1 Nature DQN网络模型8.2 Nature DQN算法8.3 实验结果8.3.1 参数设置8.3.2 算法效果8.4 结论参考文献第八章 深度强化学习-Nature深度Q网络(Nature DQN) 在上一章中我们讨论了DQN(NIPS 2013)[1]的算法原...原创 2019-12-09 14:42:54 · 4889 阅读 · 0 评论 -
【深度学习小常识】CPU(中央处理器)和GPU(图像处理器)的区别
获取更多资讯,赶快关注上面的公众号吧! 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-S...转载 2019-12-06 18:24:50 · 2913 阅读 · 0 评论 -
第七章 深度强化学习-深度Q网络系列1(Deep Q-Networks,DQN)
获取更多资讯,赶快关注上面的公众号吧!文章目录第七章 深度强化学习-深度Q网络7.1 学习目标7.2 深度学习和强化学习的区别7.3 DQN原理7.4 DQN算法7.4.1 预处理7.4.2 结构7.5 实验结果7.5.1 训练和稳定性7.5.2 可视化值函数7.5.3 对比7.6 感悟参 考 文 献第七章 深度强化学习-深度Q网络2013年Mnih等[1]提出了第一个使用强化学习从...原创 2019-12-05 19:17:12 · 5567 阅读 · 0 评论