![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 92
松间沙路hba
智能优化算法,深度学习,强化学习,生产调度,智能制造
展开
-
Schlably:深度强化学习车间调度实验的Python框架
最近发现了一个比较好玩的开源项目Schlably,其是一个基于Python和深度强化学习(DRL),用于进行调度问题实验的框架。它具有可扩展的gym环境和DRL-Agent,以及用于数据生成、训练和测试的相关功能。原创 2024-06-25 08:51:03 · 924 阅读 · 2 评论 -
2023年强化学习求解调度文章大汇总
2024龍年开工的第一篇原创文章,给大家带来2023年基于强化学习求解调度的文章汇总(去年也分享过2022年强化学习求解车间调度文章大汇总)。在读博期间研究的也是这个方向,所以平时也一直在关注着相关动态,今天分享出来供大家参考。原创 2024-02-19 13:40:15 · 1204 阅读 · 0 评论 -
基于强化学习的制造调度智能优化决策
获取更多资讯,赶快关注上面的公众号吧!生产调度作为制造系统的关键组成部分,其目的是通过合理确定加工路径、机器分配、执行时间等主要因素,实现利润、效率、能耗等目标的优化。由于生产调度问题的大规模、强耦合约束以及特定场景下的实时求解要求,使得生产调度问题的求解面临着巨大的挑战。随着机器学习的发展,强化学习(RL)在各种决策问题上取得了突破性进展。针对制造调度问题,本文总结了状态和动作的设计,梳理了基于强化学习的调度算法,整理了强化学习在不同类型调度问题中的应用,并讨论了强化学习与元启发式算法的融合模式,旨在为原创 2024-01-30 16:15:05 · 1279 阅读 · 0 评论 -
强化学习调度环境:析取图和离散事件仿真
近日有小伙伴在复现强化学习求解作业车间调度的文章代码问题时遇到一些疑惑,对于如何将车间调度问题转化为强化学习可以求解的序列决策问题文章中描述的不是很具体,导致不是很清楚怎么通过强化学习一步一步的动作选择得到调度解的。今天就通过生动形象的方式给大家讲一下目前常用的调度环境建立方法(析取图和仿真模型)的区别。原创 2022-11-26 12:59:04 · 3154 阅读 · 1 评论 -
论文解读(源码):求解柔性作业车间调度问题(FJSP)的多动作(multi-action)深度强化学习框架
今天给大家带来一篇由西南交通大学于2022年发表在《Expert Systems With Applications》上的一篇文章《A multi-action deep reinforcement learning framework for flexible Job-shop scheduling problem》,这篇文章最大的创新就是针对柔性作业车间调度问题,如何通过强化学习解决多决策问题(一般强化学习每次只能输出一个动作,而在FJSP中存在两个决策点)。原创 2022-10-24 19:37:40 · 9553 阅读 · 4 评论 -
深度强化学习与APS的一些感想
最近过上了996的幸福生活,文章更新也落后了,但是还是一直在思考深度强化学习与APS之间的“恩怨情仇”,一些感想,记录一下。原创 2022-07-31 20:11:24 · 1865 阅读 · 0 评论 -
30篇强化学习求解车间调度文章(中文)大全
国内使用强化学习求解车间调度问题的研究起步较晚,基本是在在2000年以后,而深度强化学习求解车间调度问题更是在2019、2020年左右开始流行。今天在上一篇文章的基础上,列举了**30篇中文文献**,供大家学习参考。.........原创 2022-06-12 18:40:06 · 2550 阅读 · 1 评论 -
(吐血整理)118篇强化学习求解车间调度文章(英文)大全
从1995年最早将强化学习用于车间调度问题后,在随后的几年里,强化学习一直不温不火,最主要的原因是一般的强化学习无法解决状态空间爆炸的问题,直到2018年深度强化学习开始进军调度领域,并在随后的几年里爆发式增长,在2022年上半年还未结束的情况下,已有11篇甚至更多的文章发表,可见这个方向的火热。一方面深度强化学习确实利用深度学习领域技术实现了未知状态下行为的预测,另一方面车间调度一直是悬而未决的经典问题,也是检验包括深度强化学习在内的各种算法的测试床。下面是从最近几年......原创 2022-06-12 18:34:16 · 3759 阅读 · 0 评论 -
应用前瞻||强化学习求解车间调度问题的未来
获取更多资讯,赶快关注上面的公众号吧!文章目录 在理论和应用上,深度强化学习仍然处于人工智能的初级阶段,随着信息技术和制造技术的发展,将会出现更多不同的应用模式,关于深度强化学习在车间调度中的未来应用,可以考虑以下几个方面:(1) 数字孪生与强化学习的融合 在工业4.0背景下,数字孪生日益火热,其核心思想是通过建模技术建立物理车间的数字模型,并通过数据采集和分析技术,对车间进行全要素建模,得到真实的车间状态和系统行为,实现物理模型到信息模型的映射。在此基础上,强化学习代理对状态进行感知,选择.原创 2021-08-15 10:13:03 · 2119 阅读 · 0 评论 -
100篇文献-万字总结 || 强化学习求解车间调度
获取更多资讯,赶快关注上面的公众号吧!文章目录状态动作奖励探索和利用结论参考文献近年来强化学习和深度强化学习不断用于求解调度问题,其是在动态调度问题上,它们可以根据不同的调度状态获得自适应的调度策略,在遇到新的问题时,只需要输入新的调度特征就可以快速获得调度解,而无需重新训练。本文中,作者就强化学习和深度强化学习在生产调度中的应用进行了较为全面的综述,旨在为生产调度从业者和对生产调度应用感兴趣的深度强化学习研究者提供参考。 强化学习求解生产调度问题最早可追溯于1995年[1],自此国内外学者.原创 2021-08-15 10:08:41 · 8924 阅读 · 7 评论 -
基于深度强化学习的自适应作业车间调度问题研究
获取更多资讯,赶快关注公众号(名称:智能制造与智能调度,公众号:deeprlscheduler)吧!文章目录1、论文贡献2、论文框架3、调度环境4、调度问题转化状态特征表达系统动作定义报酬函数设计探索和利用策略5、深度强化学习调度算法6、超参数灵敏度分析7、训练过程8、实验结果今天给大家带来一篇我们关于使用深度强化学习求解作业车间调度问题的新作:Han, B. A., & Yang, J. J.(2020). Research on Adaptive Job Shop Scheduling P.原创 2020-11-24 11:03:08 · 15983 阅读 · 31 评论 -
第十五章 第十五章 异步A3C(Asynchronous Advantage Actor-Critic,A3C)-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-04-23 19:16:42 · 3397 阅读 · 0 评论 -
第十四章 深度确定性策略梯度(Deep Deterministic Policy Gradient Algorithms,DDPG)-强化学习理论学习与代码实现(强化学习导论第二版)
近年来,将深度学习与强化学习相结合的方法取得了显著的进展,“深度Q网络”(Deep Q Network, DQN)算法能够在许多雅达利(Atari)视频游戏中使用未经处理的像素作为输入,就达到人类水平的性能,其中使用深度神经网络函数逼近器来估计动作值函数。 然而,DQN在解决高维观察空间...原创 2020-04-18 12:39:53 · 4129 阅读 · 0 评论 -
第十三章 确定性策略梯度(Deterministic Policy Gradient Algorithms,DPG)-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-04-17 17:53:41 · 5069 阅读 · 0 评论 -
第十二章 演员评论家(Actor-Critic)-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-04-03 09:53:54 · 4454 阅读 · 0 评论 -
第十一章 策略梯度(Policy Gradient)-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-03-17 18:31:27 · 3643 阅读 · 0 评论 -
第六章 函数逼近-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!【强化学习系列】第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)...原创 2020-03-16 17:46:26 · 3438 阅读 · 4 评论 -
第五章 基于时序差分和Q学习的无模型预测与控制-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!文章目录第五章 基于时序差分和Q学习的无模型预测与控制5.1 学习目标5.2 TD预测-*- coding: utf-8 -*--*- coding: utf-8 -*-第五章 基于时序差分和Q学习的无模型预测与控制在强化学习所有的思想中,时序差分(TD)无疑是最核心、最新颖的思想,时序差分结合了蒙特卡洛方法和动态规划法的思想,时序差分和蒙特卡洛方法一...原创 2020-03-16 17:43:31 · 3085 阅读 · 0 评论 -
【Tensorlayer系列】深度强化学习之DQN求解FrozenLake
获取更多资讯,赶快关注上面的公众号吧!Tensorlayer深度强化学习系列:Tensorlayer深度强化学习之Tensorlayer安装【Tensorlayer系列】深度强化学习之FrozenLake介绍及表格型Q学习求解文章目录3.1 FrozenLake-v03.2 DQN3.2.1 代码3.2.2 实验结果3.1 FrozenLake-v0FrozenLake环境的介绍可...原创 2020-03-06 16:24:57 · 4468 阅读 · 1 评论 -
第四章 蒙特卡洛方法-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!文章目录强化学习理论学习与代码实现蒙特卡洛方法学习目标蒙特卡洛预测蒙特卡洛动作值估计蒙特卡洛控制不带初始探索的蒙特卡洛控制基于重要度采样的离策略预测增量式实现离策略蒙特卡洛控制代码练习蒙特卡洛预测蒙特卡洛ε-贪婪控制采样加权重要度采样的离策略蒙特卡洛控制强化学习理论学习与代码实现蒙特卡洛方法不同于前面的章节,这里不再假设具备环境的完整知识,蒙特卡洛方...原创 2020-01-08 19:56:38 · 4225 阅读 · 1 评论 -
第十章 深度强化学习-Prioritized Replay DQN
获取更多资讯,赶快关注上面的公众号吧!文章目录第十章 深度强化学习-Prioritized Replay DQN10.1 介绍-说明经验回放随机采样存在的问题10.2 优先级回放10.2.1 一个启发性的例子10.2.2 基于TD误差的优先级排序10.2.3 随机优先级10.2.4 降低偏差10.3 ATARI实验结果参考文献第十章 深度强化学习-Prioritized Replay D...原创 2020-01-03 23:10:03 · 3964 阅读 · 1 评论 -
第九章 深度强化学习-Double DQN
获取更多资讯,赶快关注上面的公众号吧!文章目录第九章 深度强化学习-Double DQN9.1 回顾9.2 过高估计9.3 Double DQNReferences第九章 深度强化学习-Double DQN 目前流行的Q-learning算法会过高的估计在特定条件下的动作值。实际上,在实践中,这种过高的估计是否常见,是否会损害性能,以及是否可以预防,这些以前都不知道。于是Hado van...原创 2019-12-13 19:45:06 · 2871 阅读 · 0 评论 -
第八章 深度强化学习-Nature深度Q网络(Nature DQN)
获取更多资讯,赶快关注上面的公众号吧!文章目录第八章 深度强化学习-Nature深度Q网络(Nature DQN)8.1 Nature DQN网络模型8.2 Nature DQN算法8.3 实验结果8.3.1 参数设置8.3.2 算法效果8.4 结论参考文献第八章 深度强化学习-Nature深度Q网络(Nature DQN) 在上一章中我们讨论了DQN(NIPS 2013)[1]的算法原...原创 2019-12-09 14:42:54 · 4850 阅读 · 0 评论 -
第七章 深度强化学习-深度Q网络系列1(Deep Q-Networks,DQN)
获取更多资讯,赶快关注上面的公众号吧!文章目录第七章 深度强化学习-深度Q网络7.1 学习目标7.2 深度学习和强化学习的区别7.3 DQN原理7.4 DQN算法7.4.1 预处理7.4.2 结构7.5 实验结果7.5.1 训练和稳定性7.5.2 可视化值函数7.5.3 对比7.6 感悟参 考 文 献第七章 深度强化学习-深度Q网络2013年Mnih等[1]提出了第一个使用强化学习从...原创 2019-12-05 19:17:12 · 5512 阅读 · 0 评论 -
Ubuntu18.04下NVIDIA CUDA安装指南和DeepLearning4J GPU配置
获取更多资讯,赶快关注上面的公众号吧!文章目录NVIDIA CUDA Installation Guide for Linux1.1 介绍1.1.1 系统需求1.1.2 文档说明1.2 预装操作1.2.1 验证是否有CUDA支持的GPU1.2.2 验证Linux版本是否支持1.2.3 验证系统是否安装了gcc1.2.4 验证系统是否安装了正确的内核头文件和开发包1.2.4.1 RHEL/Cen...原创 2019-12-04 15:22:28 · 3428 阅读 · 0 评论 -
强化学习的开源平台
获取更多资讯,赶快关注上面的公众号吧! 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-S...转载 2019-12-03 10:33:54 · 2430 阅读 · 0 评论 -
深度强化学习- 最全深度强化学习资料
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声...转载 2019-12-03 09:55:02 · 3217 阅读 · 1 评论 -
第三章 动态规划-基于模型的RL-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!文章目录第三章 动态规划-基于模型的RL3.1 学习目标3.2 策略评估(预测)3.3 策略改进3.4 策略迭代3.5 值迭代3.6 异步动态规划3.7 通用策略迭代3.8 总结3.9 练习3.9.1 策略评估3.9.2 策略迭代3.9.3 值迭代3.9.4 赌徒问题第三章 动态规划-基于模型的RL动态规划(DP)这个术语指的是一组算法,它们可以在给定...原创 2019-11-14 11:07:17 · 3419 阅读 · 0 评论 -
第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!本章目录第二章 马尔科夫决策过程和贝尔曼等式2.1 学习目标2.2 代理-环境接口2.3 目标和奖励2.4 回报和片段2.5 片段任务和连续任务的统一表示法2.6 策略与值函数2.7 最优策略和最优值函数2.8 最优与近似2.9 总结第二章 马尔科夫决策过程和贝尔曼等式在本章中将介绍有限马尔科夫决策过程(finite MDPS)的形式化问题,该问题涉及...原创 2019-11-13 15:22:18 · 4357 阅读 · 0 评论 -
第一章 强化学习及OpenAI Gym介绍-强化学习理论学习与代码实现(强化学习导论第二版)
获取更多资讯,赶快关注上面的公众号吧!本章目录第一章 强化学习及OpenAI Gym介绍1.1 强化学习1.1.1 强化学习与监督、非监督学习1.1.2 强化学习案例1.1.3 强化学习的要素1.1.4 总结1.2 OpenAI Gym教程1.2.1 安装1.2.2 从源代码进行构建1.2.3 完全安装1.2.4 环境1.2.5 观察1.2.6 空间1.2.7 可用的环境1.2.8 注册1.2...原创 2019-11-13 11:47:29 · 4515 阅读 · 0 评论