- 博客(74)
- 资源 (15)
- 问答 (2)
- 收藏
- 关注
原创 因果推断学习
^abIntroduction to Causal InferenceIntroduction to Causal Inference ^因果推断学习2 --- 相关性!=因果性因果推断学习2 --- 相关性!=因果性 - 知乎 ^Theoretical Impediments to Machine Learning With Seven Sparks from the Causal Revolutionhttps://arxiv.org/pdf/1801.04016.pdf ^因果推断综述及基
2024-03-26 11:24:05 372
原创 基于冲突搜索(CBS)的多智能体路径寻优(MAPF)
多智能体路径寻优( Multi-Agent Path Finding,MAPF )问题由一个无向无权图G = ( V ,E )和一组k个智能体组成,其中智能体有起始点和目标点。
2023-01-11 14:42:24 4048 2
原创 车间动态调度的研究方法
已开发的调度规则不能保证在任何情形下都可以很好的优化,需要根据具体问题设计特定的调度规则,但人工设计的调度规则存在时间和经验上的不足。适用于各种车间场景,可以很好的响应车间的各种动态事件,但很难得到一个接近全局的调度方案。利用静态调度技术使每个子问题得到最优解决,但很难保证全局的优化效果,而且由于。问题设计在线启发式算法,对实际制造车间调度的问题来说难度大。)预反应调度方法将复杂的调度问题分解为一系列静态调度问题。)鲁棒调度方法虽然可以保持较好的鲁棒性,但是以。)建立鲁棒调度的优化模型。
2022-10-30 19:55:33 2737 2
原创 多目标进化算法详细讲解及代码实现(样例:MOEA/D、NSGA-Ⅱ求解多目标(柔性)作业车间调度问题)
本文对基于分解的多目标进化算法及基于Pareto的多目标进化算法进行了详细的讲解,并使用柔性作业车间调度问题作为背景对两类算法中极具代表性的算法MOEA/D和NSGA-Ⅱ进行了复现。
2022-08-22 19:02:42 7835 6
原创 SCI 写作常见错误
1 常见错误1.1 省略冠词 a、an 和 the主要有三种情况:1)需要的地方被省略;2)在不需要的地方使用或导致冗长;3)使用错误。错误用法示例:由于本研究中使用的三维建模工具只有一个,所以“三维建模工具”是具体的、特定的,因此用the。冠词(Articles)也称为限定词或名词标记,通过讲述多少或多少来限制名词。 (数量的表达,限制形容词,标记)它们告诉名词是一般的(a tree)还是特定的(the tree)。the是定冠词。在名词之前,the 表示已知指的是特定项目
2022-05-29 16:21:18 2490 1
原创 模糊时间的柔性车间调度问题-Python实现遗传算法求解
1 问题描述FJSPF(the FJSP with Fuzzy Processing time)可以表述如下:有n 个工件要在 m 台机器上加工。每个工件有ni个工序,每个工件必须按确定的路径完成所有工序,每道工序有1台及以上加工工序,工序的加工时间为模糊时间。1.1 模糊加工时间的运算 当工序加工时间为模糊时间时,要想能很好的排产出来,比如在甘特图上排产,需要一些模糊数运算操作。这些运算包括加法运算、两个模糊数的最大运算和模糊数的排序方法。加法运算用于计算运算的模糊完成时间。最大....
2022-05-04 19:00:36 3010
原创 基于AGV的物流作业车间调度优化
文献来源:Iowa State University 2018 博士论文 作者:Shiyang Huang 《Optimization of job shop scheduling with material handling by automated guided vehicle 》1 论文简介这篇博士论文主要包含以下三项研究:第一个研究中的AGV调度问题,我们提出了一系列基于网络优化、缩短作业等待时间的AGV调度策略。在第二个研究中,建立了一个全面的JSSMH模型,并提出了一种启发式算法
2022-04-26 17:23:07 2550 1
原创 基于深度强化学习的柔性作业车间动态调度
在追求敏捷和灵活的生产调度方面,处理不可预测的动态事件的能力变得越来越重要。与此同时,生产系统中的网络-物理融合产生了大量需要实时挖掘和分析的工业数据。为了便于这种实时控制,本研究提出了一种分层分布式的体系结构来解决动态柔性作业车间调度问题。采用双深度Q网络算法(DDQN)训练调度智能体,捕捉生产信息与调度目标之间的关系,为具有恒定任务到达的柔性作业车间实时做出调度决策。为了处理动态调度中问题的可变规格说明,提出了专门的状态和动作表示法。此外,还提出了一种代理奖励整形技术(surrogate reward
2022-04-14 19:31:51 9244 42
原创 AGV调度研究(部分论文提供了个人python复现)
1 问题简述1.1 GA+启发式(VAA):《A hybrid GA/heuristic approach to the simultaneous scheduling of machines and automated guided vehicles》(2007/IJPR/Tamer F. Abdelmaguid)编码:所研究问题的第一部分即工序调度的结构在理论上类似于作业车间调度问题,因此采用基于工序的编码。车辆分配和调度部分由一种称为车辆分配算法(VAA)的启发式算法来处理。VAA从.
2022-03-26 15:24:54 7359 3
原创 多智能体强化学习和分布式强化学习的区别?
个人以为,从研究内容来看,多智能体强化学习更多研究的是智能体之间的交互和关联,寻求在多智能体强化学习中所有智能体之间达到均衡状态;分布式强化学习的研究则侧重于强化学习低采样效率的问题,嵌入并行计算以高效加速模型训练过程并提高学习效果。以下将对两者相关研究内容进行简述以显看出两者的区别。1 多智能体强化学习根据具体应用中智能体之间的关系,将多智能体问题分为完全合作式、完全竞争式、混合关系式三种类型。相比单智能体系统,强化学习应用于多智能体系统会遇到哪些挑战和问题?(1)环境的不稳定性:智能体在
2022-03-03 20:54:05 2854
原创 运筹优化算法工程师面试问题汇总
本文对全网的运筹优化算法方向前人的面经中涉及的一些面试问题进行总结,以下涉及到运筹学的大部分知识,主要涉及的问题如下:运筹:1 单纯形法是什么?具体讲解一下单纯形的步骤。Simplex-单纯形算法介绍 | caojiangxia运筹说 第16期 | 线性规划硬核知识点梳理—单纯形法 - 知乎 (zhihu.com)2 列生成?当变量数目大于约束条件数时,需要使用列生成算法,讲解一下列生成算法,列生成算法除了主问题还有子问题,子问题的作用是什么?干货 | 10分钟带你彻底了解colum
2022-03-03 20:51:26 3503
原创 多智能体强化学习在智能工厂在线调度中应用
来源:Robotics and Computer-Integrated Manufacturing/2021论文:Multi-agent reinforcement learning for online scheduling in smart factories传统的制造系统采用集中式结构进行数据分析和订单调度,由于过于依赖中央控制器和有限的通信通道,效率低下且不可靠。物联网(IoT)和云技术使构建多智能体系统(MAS)等分布式制造体系结构成为可能。最近,人工智能(AI)方法被用于解决制造环境中的
2022-02-25 17:43:54 4436
原创 用python实现基于遗传算法求解带AGV的作业车间调度问题
1 项目描述针对带AGV的作业车间调度问题,以最小化完工时间为目标,考虑AGV在装载站、机器、卸载站之间的有效负载时间和空载时间,采用遗传算法进行求解,设计了面向工件运输次数的一维编码,和面向工件运输的驱动解码,以此来联动工件排序和AGV指派两个调度子问题,达到接近最优解的效果。算法采用Bilge和Ulusoy等人设计的40个算例进行验证。算例下载可前往个人CSDN:机器人作业车间的算例JSP_Transbot.zip-制造文档类资源-CSDN文库进行下载。或前往个人Github下载完整代码包含
2022-02-19 12:05:24 4895 11
原创 (pytorch复现)基于深度强化学习(CNN+dueling network/DQN/DDQN/D3QN/PER)的自适应车间调度(JSP)
为了深入学习各种深度学习网络和强化学习的结合,实现了一下下列文章:Research on Adaptive Job Shop Scheduling Problems Based on Dueling Double DQN | IEEE Journals & Magazine | IEEE Xplore状态、动作、奖励函数及实验的简单介绍可参考:基于深度强化学习的自适应作业车间调度问题研究_松间沙路的博客-CSDN博客_强化学习调度整体代码复现可见个人Github:Aihong-Sun
2021-12-27 15:25:49 7163 13
原创 强化学习过程中对产生的无效动作应该如何进行屏蔽处理?(强化学习中可变的动作空间怎么处理)
解决方法如果想要soft constraint,即直接训练,当算法给到不能选的动作就给一个很差的收益,如果想要hard constraint, 那就是“屏蔽”(”mask out“)无效的操作,仅从有效操作中进行采样,然而这一过程仍未得到充分的研究。
2021-12-15 15:24:41 6785
原创 写给那些准备入门车间调度问题的小伙伴,关于代码编写以及高效利用他人代码的方法(不要让代码能力限制了你的科研能力)
个人运作这个CSDN也有一年了,这一年中遇到很多人问我代码的问题,尤其是做车间调度的同学,大部分同学都是没有编程经验的,很多时候无从下手,不知道从什么地方开始编,今天就讲讲我的一些经验。
2021-12-13 14:03:35 4359 17
原创 基于混合DQN的运输资源不足柔性作业车间实时数据驱动动态调度
本文研究了运输资源不足的动态柔性作业车间调度问题(DFJSP-ITR),以最小化完工时间和总能耗为目标。为了使Agent学习根据每个决策点的生产状态选择合适的规则,提出了一种混合深度Q网络(HDQN),该网络将深度Q网络与三次扩展相结合。Robotics and Computer-Integrated Manufacturing/20221 简介本文研究了运输资源不足的动态柔性作业车间调度问题(DFJSP-ITR),以最小化完工时间和总能耗为目标...
2021-12-11 10:06:48 2284 3
原创 基于dual Q-learning 的装配时间不确定装配作业车间自适应调度
针对装配作业车间生产环境的不确定性,结合强化学习的实时性,针对装配作业车间调度问题,提出了一种双Q学习(dual Q learning,D-Q)方法,通过自学习来增强对环境变化的适应性。在最小化总加权提前惩罚和完工时间成本的目标函数的基础上,顶层Q-学习着眼于局部目标,以求最小机器闲置和均衡机器负载的调度策略;底层Q-学习,侧重于全局目标,以学习最优调度策略,使所有作业的整体提前时间最小。
2021-12-07 18:07:02 1895
原创 DQN学习使用混合规则的柔性车间AGV实时调度(关注点:状态、奖励函数的设置)
本文针对对象为柔性车间,提出了一种基于混合规则的自适应深度强化学习(DRL) AGV实时调度方法,以最小化完工时间和延迟率为目标。
2021-12-06 22:08:15 2788 1
原创 基于多智能体强化学习的自动化集装箱码头无冲突AGV路径规划
AGV冲突预防路径规划是提高集装箱码头运输成本和运营效率的关键因素。研究了集装箱自动化码头(ACTS)水平运输区自动导引车(AGV)的防冲突路径规划问题。根据磁钉导引AGVS的特点,构建了节点网络。通过对对向冲突和同点占领冲突两种冲突情况的分析,建立了求解最短路径的整数规划模型。针对这一问题,提出了多Agent深度确定性策略梯度(MADDPG)方法,并采用Gumbel-Softmax策略对节点网络产生的场景进行离散化。通过一系列的数值实验,验证了模型和算法的有效性和高效性。
2021-11-27 22:05:20 5787 2
原创 基于强化学习的多智能体框架在路由和调度问题中的应用
本文提出了一个使用元启发式算法进行优化的多智能体框架,AMAM.在该方案中,每个智能体在组合优化问题的搜索空间中独立行动。Agent通过环境共享信息并相互协作。目标是使Agent能够根据与其他Agent和环境交互时获得的经验,使用强化学习的概念来修改他们的动作。为了更好地介绍和验证AMAM框架,本文使用了带时间窗的车辆路径问题(VRPTW)和带顺序调整时间的并行机调度问题(UPMSP-ST)这两个经典的组合优化问题。实验的主要目的是评估所提出的自适应Agent的性能。
2021-11-22 22:42:34 2768
原创 自动化装配车间(automated assemby shop)动态路径规划的混合算法——考虑车间布局的动态变化(dynamic layout)
《A hybrid approach for dynamic routing planning in an automated assembly shop》Robotic and Computer-Integrated Manufacturing/20101 摘要动态作业车间作业的高度动荡环境影响着车间布局以及制造作业。由于布局变化的动态特性,在重新配置车间布局时,除了考虑材料处理和机器搬迁的成本问题外,还需要考虑诸如对变化的适应性和响应性等基本要求。本文根据不确定性的来源,将车...
2021-11-16 11:36:20 1280
原创 MAGNet: 面向深度多智能体强化学习(MADRL)的多智能体图网络(Graph Network)
《MAGNet:Multi-agent Graph Network for Deep Multi-agent Reinforcement Learning》[2012.09762] MAGNet: Multi-agent Graph Network for Deep Multi-agent Reinforcement Learning (arxiv.org)https://arxiv.org/abs/2012.09762 这篇文章提出了一种新的多智能体强化学习方法,称为MAGNet,它利用...
2021-11-15 10:36:06 2520
原创 作业车间问题的调度学习:使用图神经网络(GNN)和强化学习(RL)的表示和策略学习
《Learning to schedule job-shop problems:representation and policy learning using graph neural network and reinforcement learning》Internation Journal of production research/20211 摘要我们提出了一个使用图神经网络(GNN)和强化学习(RL)来学习调度作业车间问题(JSSP)的框架。为了考虑JSSP的结构,我...
2021-11-09 17:04:04 4883 3
原创 Deep Q-learning的发展及相关论文汇总(DQN、DDQN,Priority experience replay 等)
在DQN提出之前,强化学习与神经网络的结合遭受着不稳定和发散等问题的困扰。DQN做了以下改进: (1)使用memory replay 和 target network 稳定基于DL的近似动作值函数; (2)使用reward来构造标签,解决深度学习需要大量带标签的样本进行监督学习的问题 标准DQN利用max操作符使得目标值过高估计,于是下面这篇文献提出了Double DQN用于平衡值估计。Deep Reinforcement...
2021-11-06 18:54:41 1819
原创 State Abstaction:面向MDP的统一状态抽象理论
《Towards a UnifIed Theory of State Abstraction for MDPs》LIhong Li Thomas J.Walsh Michael L.Littman获取原文的链接http://rbr.cs.umass.edu/aimath06/proceedings/P21.pdf1 摘要状态抽象(或状态聚合(state aggregation))在人工智能和运筹学领域得到了广泛的研究。相对于在基态空间中工作...
2021-11-03 11:55:10 410 3
原创 多智能体深度强化学习(MADRL)在大规模交通信号灯控制中的应用
《Multi-Agent Deep Reinforcement Learning for Large-Scale Traffic Signal Control》IEEE Transaction on Intelligent tansportation systems/2020论文及代码链接https://arxiv.org/abs/1903.045271摘要强化学习(RL)是解决复杂城市交通网络中自适应交通信号控制(ATSC)的一种很有前途的数据驱动方法,而深度神经网络进一...
2021-11-02 17:49:42 3208 5
原创 论文阅读|《强化学习在加工时间可变的机器人流水车间调度中的应用》
《Reinforcement Learning for robotic flow shop scheduling with processing time variations》International Journal of Production Research/20211 摘要我们解决了一个机器人流水车间调度问题,其中两种零件类型在每组给定的专用机器上进行处理。单个机器人在固定轨道上移动,一次运输一个部件,在给定的时间间隔内,这些部件在机器上的加工时间各不相同。我们使用强化...
2021-10-20 18:26:55 2084
原创 论文阅读|用于不同问题的MADDPG算法框架系列论文汇总
MADDPG论文阅读:论文阅读|《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》(NeurlPS,2017)(MADDPG)论文1 《A Data-Driven Multi-Agent Autonomous Voltage Control Framework Using Deep Reinforcement Learning》#
2021-10-14 22:13:56 2507
原创 论文阅读|《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》(NeurlPS,2017)(MADDPG)
论文获取可点击此处https://arxiv.org/abs/1706.02275v21 摘要 首先分析了传统算法在多Agent情况下的困难:Q-学习受到环境固有的非平稳性的挑战,而策略梯度受到随着Agent数量的增加而增加的方差的影响。提出了一种对Actor-Critic算法的适应,该方法考虑了其他Agent的行动策略,并且能够成功地学习需要复杂的多Agent协调策略。此外,我们引入了一种训练方案,该方案利用每个代理的策略集成,从而产生更健壮的多代理策略。我们展示了与现有方法相比,我们的...
2021-10-13 16:48:34 1539
原创 论文阅读|两人零和马尔可夫博弈的在线极大极小Q网络学习《Online Minimax Q Network Learning for TZMGs》
文章获取https://doi.org/10.1109/TNNLS.2020.3041469<Online Minimax Q Network Learning for Two-Player Zero-Sum Markpv Games>IEEE TRANSACTION ON NEURAL NETWORKS AND LEARNING SYSTEMS/20201 摘要 这篇文章首先将问题表述为Bellman极小极大方程,广义策略迭代(generalized policy...
2021-10-09 21:53:22 2633 4
原创 强化学习|多智能体深度强化学习(博弈论—>多智能体强化学习)
1 简介近年来,AlphaGo代表的“决策智能备受关注”,即将来临的物联网时代,群体决策智能将成为另一个研究重点。 说到群体决策智能,就免不了提及博弈论。博弈论研究的是多个智能体的理性决策问题。它定义了动作、收益等博弈的基本概念,侧重分析理性智能体的博弈结果,即均衡。 然而,在很多现实问题中,博弈的状态空间和动作空间都很大,智能体的绝对理性很难实现,智能体往往处在不断的策略学习过程中。近年来兴起的多智能强化学习主要研究智能体策略的同步学习和演化问题。...
2021-09-24 17:32:19 8211 1
原创 论文阅读|《Bi-level Actor-Critic for Multi-agent Coordination》(AAAI 2020)(附带源码链接)
1 摘要协调是多智能体系统的基本问题之一。典型的多智能体强化学习(MARL)方法对智能体一视同仁,其目标是在存在多重均衡时将马尔可夫博弈求解到任意的纳什均衡(NE),从而缺乏解决NE选择的方法。在本文中,我们平等地对待Agent,并认为Stackelberg均衡在帕累托优势方面是一个比Nash均衡更好的收敛点,特别是在合作环境中。在马尔可夫对策下,我们正式定义了寻找Stackelberg均衡的双层强化学习问题。我们提出了一种新颖的双层Actor-Critic学习方法,该方法允许Agent...
2021-09-24 17:20:01 1882 5
原创 用Python实现基于遗传算法(GA)求解混合流水车间调度问题(HFSP)
之前一直研究的是柔性作业车间调度问题,研究汇总如下:用python实现基于遗传算法求解柔性作业车间调度问题代码实现(包括标准算例准换、编码、解码、交叉、变异的详细讲述)用python实现基于蚁群算法求解带准备时间的双资源约束柔性作业车间调度问题用Python实现带运输时间准备时间的MSOS染色体解码(FJSP)Tensorflow2.0|基于深度强化学习(DQN)实现动态柔性作业车间调度问题(DFJSP)用Python实现论文《考虑装卸的柔性作业车间双资源调度问题》的降准解码算法今天,来讲.
2021-09-11 19:29:29 14686 28
原创 论文阅读|《制造环境下多AGV调度的强化学习方法》
《A Reinforcement Learning Method for Multi-AGV Scheduling in Manufacturing》ICIT/20181 摘要 这篇文章提出用强化学习求解多AGV流水车间调度问题。AGV在固定轨道上移动,在机器之间运输半成品(semi-finished product)。 目标:最小化平均工件延迟和总完工时间。2 论文解读 强化学习算法应用于车间调度问题的难点: ...
2021-09-02 16:39:08 1608
原创 论文阅读|图神经网络+Actor-Critic求解静态JSP(End-to-End DRL)《基于深度强化学习的调度规则学习》(附带源码)
《Learning to Dispatch for Job Shop scheduling via Deep Reinforcemnet Learning》NeurIPS 20201 摘要优先调度规则(Priority dispatching rule,PDR)广泛用于求解JSSP问题,这篇文章通过端到端的深度强化学习代理来自动学习PDR。利用JSSP的析取图表示,提出了一种基于图神经网络(Graph Neural Network,GNN)的方案来嵌入求解过程中遇到的状态。由此产生的策略网络与大
2021-08-19 22:53:30 3850 22
《Optimization of job shop scheduling with MH by AGV 》
2022-04-18
算例为流水车间调度算例,包括 car1-car8、hel1-hel2、reC01-reC42
2022-01-03
机器人作业车间的算例 JSP_Transbot.zip
2021-12-15
can_work_MADDPG.rar
2021-10-13
SVM_for_AGV_dispatching.zip
2021-09-03
L2D-main.zip
2021-08-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人