强化学习
文章平均质量分 87
码丽莲梦露
在职运筹优化算法工程师
展开
-
基于深度强化学习的柔性作业车间动态调度
在追求敏捷和灵活的生产调度方面,处理不可预测的动态事件的能力变得越来越重要。与此同时,生产系统中的网络-物理融合产生了大量需要实时挖掘和分析的工业数据。为了便于这种实时控制,本研究提出了一种分层分布式的体系结构来解决动态柔性作业车间调度问题。采用双深度Q网络算法(DDQN)训练调度智能体,捕捉生产信息与调度目标之间的关系,为具有恒定任务到达的柔性作业车间实时做出调度决策。为了处理动态调度中问题的可变规格说明,提出了专门的状态和动作表示法。此外,还提出了一种代理奖励整形技术(surrogate reward原创 2022-04-14 19:31:51 · 10204 阅读 · 44 评论 -
多智能体强化学习和分布式强化学习的区别?
个人以为,从研究内容来看,多智能体强化学习更多研究的是智能体之间的交互和关联,寻求在多智能体强化学习中所有智能体之间达到均衡状态;分布式强化学习的研究则侧重于强化学习低采样效率的问题,嵌入并行计算以高效加速模型训练过程并提高学习效果。以下将对两者相关研究内容进行简述以显看出两者的区别。1 多智能体强化学习根据具体应用中智能体之间的关系,将多智能体问题分为完全合作式、完全竞争式、混合关系式三种类型。相比单智能体系统,强化学习应用于多智能体系统会遇到哪些挑战和问题?(1)环境的不稳定性:智能体在原创 2022-03-03 20:54:05 · 3064 阅读 · 0 评论 -
多智能体强化学习在智能工厂在线调度中应用
来源:Robotics and Computer-Integrated Manufacturing/2021论文:Multi-agent reinforcement learning for online scheduling in smart factories传统的制造系统采用集中式结构进行数据分析和订单调度,由于过于依赖中央控制器和有限的通信通道,效率低下且不可靠。物联网(IoT)和云技术使构建多智能体系统(MAS)等分布式制造体系结构成为可能。最近,人工智能(AI)方法被用于解决制造环境中的原创 2022-02-25 17:43:54 · 4735 阅读 · 0 评论 -
(pytorch复现)基于深度强化学习(CNN+dueling network/DQN/DDQN/D3QN/PER)的自适应车间调度(JSP)
为了深入学习各种深度学习网络和强化学习的结合,实现了一下下列文章:Research on Adaptive Job Shop Scheduling Problems Based on Dueling Double DQN | IEEE Journals & Magazine | IEEE Xplore状态、动作、奖励函数及实验的简单介绍可参考:基于深度强化学习的自适应作业车间调度问题研究_松间沙路的博客-CSDN博客_强化学习调度整体代码复现可见个人Github:Aihong-Sun原创 2021-12-27 15:25:49 · 7625 阅读 · 14 评论 -
强化学习过程中对产生的无效动作应该如何进行屏蔽处理?(强化学习中可变的动作空间怎么处理)
解决方法如果想要soft constraint,即直接训练,当算法给到不能选的动作就给一个很差的收益,如果想要hard constraint, 那就是“屏蔽”(”mask out“)无效的操作,仅从有效操作中进行采样,然而这一过程仍未得到充分的研究。原创 2021-12-15 15:24:41 · 7318 阅读 · 0 评论 -
基于混合DQN的运输资源不足柔性作业车间实时数据驱动动态调度
本文研究了运输资源不足的动态柔性作业车间调度问题(DFJSP-ITR),以最小化完工时间和总能耗为目标。为了使Agent学习根据每个决策点的生产状态选择合适的规则,提出了一种混合深度Q网络(HDQN),该网络将深度Q网络与三次扩展相结合。Robotics and Computer-Integrated Manufacturing/20221 简介本文研究了运输资源不足的动态柔性作业车间调度问题(DFJSP-ITR),以最小化完工时间和总能耗为目标...原创 2021-12-11 10:06:48 · 2468 阅读 · 3 评论 -
基于dual Q-learning 的装配时间不确定装配作业车间自适应调度
针对装配作业车间生产环境的不确定性,结合强化学习的实时性,针对装配作业车间调度问题,提出了一种双Q学习(dual Q learning,D-Q)方法,通过自学习来增强对环境变化的适应性。在最小化总加权提前惩罚和完工时间成本的目标函数的基础上,顶层Q-学习着眼于局部目标,以求最小机器闲置和均衡机器负载的调度策略;底层Q-学习,侧重于全局目标,以学习最优调度策略,使所有作业的整体提前时间最小。原创 2021-12-07 18:07:02 · 2035 阅读 · 0 评论 -
DQN学习使用混合规则的柔性车间AGV实时调度(关注点:状态、奖励函数的设置)
本文针对对象为柔性车间,提出了一种基于混合规则的自适应深度强化学习(DRL) AGV实时调度方法,以最小化完工时间和延迟率为目标。原创 2021-12-06 22:08:15 · 3096 阅读 · 1 评论 -
基于多智能体强化学习的自动化集装箱码头无冲突AGV路径规划
AGV冲突预防路径规划是提高集装箱码头运输成本和运营效率的关键因素。研究了集装箱自动化码头(ACTS)水平运输区自动导引车(AGV)的防冲突路径规划问题。根据磁钉导引AGVS的特点,构建了节点网络。通过对对向冲突和同点占领冲突两种冲突情况的分析,建立了求解最短路径的整数规划模型。针对这一问题,提出了多Agent深度确定性策略梯度(MADDPG)方法,并采用Gumbel-Softmax策略对节点网络产生的场景进行离散化。通过一系列的数值实验,验证了模型和算法的有效性和高效性。原创 2021-11-27 22:05:20 · 6478 阅读 · 2 评论 -
基于强化学习的多智能体框架在路由和调度问题中的应用
本文提出了一个使用元启发式算法进行优化的多智能体框架,AMAM.在该方案中,每个智能体在组合优化问题的搜索空间中独立行动。Agent通过环境共享信息并相互协作。目标是使Agent能够根据与其他Agent和环境交互时获得的经验,使用强化学习的概念来修改他们的动作。为了更好地介绍和验证AMAM框架,本文使用了带时间窗的车辆路径问题(VRPTW)和带顺序调整时间的并行机调度问题(UPMSP-ST)这两个经典的组合优化问题。实验的主要目的是评估所提出的自适应Agent的性能。原创 2021-11-22 22:42:34 · 3320 阅读 · 0 评论 -
MAGNet: 面向深度多智能体强化学习(MADRL)的多智能体图网络(Graph Network)
《MAGNet:Multi-agent Graph Network for Deep Multi-agent Reinforcement Learning》[2012.09762] MAGNet: Multi-agent Graph Network for Deep Multi-agent Reinforcement Learning (arxiv.org)https://arxiv.org/abs/2012.09762 这篇文章提出了一种新的多智能体强化学习方法,称为MAGNet,它利用...原创 2021-11-15 10:36:06 · 2910 阅读 · 0 评论 -
作业车间问题的调度学习:使用图神经网络(GNN)和强化学习(RL)的表示和策略学习
《Learning to schedule job-shop problems:representation and policy learning using graph neural network and reinforcement learning》Internation Journal of production research/20211 摘要我们提出了一个使用图神经网络(GNN)和强化学习(RL)来学习调度作业车间问题(JSSP)的框架。为了考虑JSSP的结构,我...原创 2021-11-09 17:04:04 · 5370 阅读 · 3 评论 -
Deep Q-learning的发展及相关论文汇总(DQN、DDQN,Priority experience replay 等)
在DQN提出之前,强化学习与神经网络的结合遭受着不稳定和发散等问题的困扰。DQN做了以下改进: (1)使用memory replay 和 target network 稳定基于DL的近似动作值函数; (2)使用reward来构造标签,解决深度学习需要大量带标签的样本进行监督学习的问题 标准DQN利用max操作符使得目标值过高估计,于是下面这篇文献提出了Double DQN用于平衡值估计。Deep Reinforcement...原创 2021-11-06 18:54:41 · 2172 阅读 · 0 评论 -
State Abstaction:面向MDP的统一状态抽象理论
《Towards a UnifIed Theory of State Abstraction for MDPs》LIhong Li Thomas J.Walsh Michael L.Littman获取原文的链接http://rbr.cs.umass.edu/aimath06/proceedings/P21.pdf1 摘要状态抽象(或状态聚合(state aggregation))在人工智能和运筹学领域得到了广泛的研究。相对于在基态空间中工作...原创 2021-11-03 11:55:10 · 471 阅读 · 2 评论 -
论文阅读|《强化学习在加工时间可变的机器人流水车间调度中的应用》
《Reinforcement Learning for robotic flow shop scheduling with processing time variations》International Journal of Production Research/20211 摘要我们解决了一个机器人流水车间调度问题,其中两种零件类型在每组给定的专用机器上进行处理。单个机器人在固定轨道上移动,一次运输一个部件,在给定的时间间隔内,这些部件在机器上的加工时间各不相同。我们使用强化...原创 2021-10-20 18:26:55 · 2319 阅读 · 0 评论 -
论文阅读|用于不同问题的MADDPG算法框架系列论文汇总
MADDPG论文阅读:论文阅读|《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》(NeurlPS,2017)(MADDPG)论文1 《A Data-Driven Multi-Agent Autonomous Voltage Control Framework Using Deep Reinforcement Learning》#原创 2021-10-14 22:13:56 · 2999 阅读 · 0 评论 -
论文阅读|《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》(NeurlPS,2017)(MADDPG)
论文获取可点击此处https://arxiv.org/abs/1706.02275v21 摘要 首先分析了传统算法在多Agent情况下的困难:Q-学习受到环境固有的非平稳性的挑战,而策略梯度受到随着Agent数量的增加而增加的方差的影响。提出了一种对Actor-Critic算法的适应,该方法考虑了其他Agent的行动策略,并且能够成功地学习需要复杂的多Agent协调策略。此外,我们引入了一种训练方案,该方案利用每个代理的策略集成,从而产生更健壮的多代理策略。我们展示了与现有方法相比,我们的...原创 2021-10-13 16:48:34 · 1959 阅读 · 0 评论 -
论文阅读|两人零和马尔可夫博弈的在线极大极小Q网络学习《Online Minimax Q Network Learning for TZMGs》
文章获取https://doi.org/10.1109/TNNLS.2020.3041469<Online Minimax Q Network Learning for Two-Player Zero-Sum Markpv Games>IEEE TRANSACTION ON NEURAL NETWORKS AND LEARNING SYSTEMS/20201 摘要 这篇文章首先将问题表述为Bellman极小极大方程,广义策略迭代(generalized policy...原创 2021-10-09 21:53:22 · 3088 阅读 · 4 评论 -
强化学习|多智能体深度强化学习(博弈论—>多智能体强化学习)
1 简介近年来,AlphaGo代表的“决策智能备受关注”,即将来临的物联网时代,群体决策智能将成为另一个研究重点。 说到群体决策智能,就免不了提及博弈论。博弈论研究的是多个智能体的理性决策问题。它定义了动作、收益等博弈的基本概念,侧重分析理性智能体的博弈结果,即均衡。 然而,在很多现实问题中,博弈的状态空间和动作空间都很大,智能体的绝对理性很难实现,智能体往往处在不断的策略学习过程中。近年来兴起的多智能强化学习主要研究智能体策略的同步学习和演化问题。...原创 2021-09-24 17:32:19 · 9894 阅读 · 3 评论 -
论文阅读|《Bi-level Actor-Critic for Multi-agent Coordination》(AAAI 2020)(附带源码链接)
1 摘要协调是多智能体系统的基本问题之一。典型的多智能体强化学习(MARL)方法对智能体一视同仁,其目标是在存在多重均衡时将马尔可夫博弈求解到任意的纳什均衡(NE),从而缺乏解决NE选择的方法。在本文中,我们平等地对待Agent,并认为Stackelberg均衡在帕累托优势方面是一个比Nash均衡更好的收敛点,特别是在合作环境中。在马尔可夫对策下,我们正式定义了寻找Stackelberg均衡的双层强化学习问题。我们提出了一种新颖的双层Actor-Critic学习方法,该方法允许Agent...原创 2021-09-24 17:20:01 · 2237 阅读 · 6 评论 -
论文阅读|《制造环境下多AGV调度的强化学习方法》
《A Reinforcement Learning Method for Multi-AGV Scheduling in Manufacturing》ICIT/20181 摘要 这篇文章提出用强化学习求解多AGV流水车间调度问题。AGV在固定轨道上移动,在机器之间运输半成品(semi-finished product)。 目标:最小化平均工件延迟和总完工时间。2 论文解读 强化学习算法应用于车间调度问题的难点: ...原创 2021-09-02 16:39:08 · 1818 阅读 · 0 评论 -
论文阅读|图神经网络+Actor-Critic求解静态JSP(End-to-End DRL)《基于深度强化学习的调度规则学习》(附带源码)
《Learning to Dispatch for Job Shop scheduling via Deep Reinforcemnet Learning》NeurIPS 20201 摘要优先调度规则(Priority dispatching rule,PDR)广泛用于求解JSSP问题,这篇文章通过端到端的深度强化学习代理来自动学习PDR。利用JSSP的析取图表示,提出了一种基于图神经网络(Graph Neural Network,GNN)的方案来嵌入求解过程中遇到的状态。由此产生的策略网络与大原创 2021-08-19 22:53:30 · 4156 阅读 · 24 评论 -
论文阅读|《面向多目标柔性作业车间调度的强化学习NSGA-Ⅱ算法》
《面向多目标柔性作业车间调度的强化学习NSGA-Ⅱ算法》 重庆大学学报/20211 多目标柔性作业车间调度模型考虑的目标:(1)最大王时间(2)机器总负荷(3)瓶颈机器负荷2 算法设置NSGA-Ⅱ过程:首先对Pt执行选择、交叉、变异操作形成种群Qt,并将两个种群合并为种群Rt,然后对种群Rt进行非支配排序形成多个前列面Fi,并从高到底依次胶乳新一代种群Pt+1,当Fi加入使得种群超出规模大小时,依据拥挤度从大到小将个体加入新一代种群Pt+1。...原创 2021-06-04 11:23:24 · 2307 阅读 · 16 评论 -
强化学习遇见组合优化
强化学习的概念:组合优化的应用:用来求解组合优化问题的方法:原创 2021-05-19 19:00:28 · 547 阅读 · 2 评论 -
论文阅读|《用强化学习求解带插单的动态FJSP》
《Dynamic scheduling for flexible job shop with new job insertions by deep reinforcement learning》Applied Soft Computing Journal/2020这篇文章使用DRL来解决带新件插入的DFJSP问题,目标为最小化总拖期,贡献如下:(1)使用在[0,1]中取值的七个通用特征表示每个重调度点的状态。(2)设计了六个组合规则(动作)来确定下一步要处理的工序和分配的机器。(3)提出了一种深原创 2021-06-06 11:52:02 · 5003 阅读 · 12 评论 -
论文阅读|《 基于强化学习的自适应遗传算法求解柔性作业车间调度问题》
《A self-learning genetic algorithm based on reinforcement learning for flexible job shop scheduling problem》Computers & Industrial Engineering/2021论文出发点:传统求解方法的关键参数不能动态调整导致求解效率和求解速度不能达到预期效果。方法:用强化学习(SARSA算法和Q学习)优化参数 。1 基本算法1.1 遗传算法编码:MS、O原创 2021-06-01 21:19:13 · 5701 阅读 · 40 评论