论文阅读|《强化学习在加工时间可变的机器人流水车间调度中的应用》

最新推荐文章于 2024-12-02 15:21:40 发布

码丽莲梦露

最新推荐文章于 2024-12-02 15:21:40 发布

阅读量2.6k

点赞数 6

分类专栏： # 强化学习 # 流水车间论文阅读与实现文章标签：机器学习

本文链接：https://blog.csdn.net/crazy_girl_me/article/details/120862356

版权

论文阅读与实现同时被 3 个专栏收录

39 篇文章

订阅专栏

强化学习

26 篇文章

订阅专栏

流水车间

1 篇文章

订阅专栏

《Reinforcement Learning for robotic flow shop scheduling with processing time variations》

International Journal of Production Research/2021

1 摘要

我们解决了一个机器人流水车间调度问题，其中两种零件类型在每组给定的专用机器上进行处理。单个机器人在固定轨道上移动，一次运输一个部件，在给定的时间间隔内，这些部件在机器上的加工时间各不相同。我们使用强化学习(RL)方法来获得有效的机器人任务序列，以最小化完工时间。我们用一个用于RL环境的Petri网对该问题进行建模，并给出了完工时间的一个下界。然后，我们基于Petri网模型定义了状态、动作和奖励；进一步，我们证明了RL方法比先进先出(FIFO)规则和逆向序列(RS)更好地工作，后者被广泛应用于机器人流水作业的循环调度；此外，所提出算法的最大完工时间与下界之间的差距不大；最后，将RL方法的最大完工时间与松弛问题的最优解进行了比较。通过与FIFO、RS和一个下界的比较，证明了RL算法在机器人流水作业调度中的适用性和效率。这项工作可以很容易地扩展到机器人流水作业调度问题的其他几个变种。

2 介绍

这篇文章介绍的机器人流水作业调度问题考虑的是：两种类型的零件以特定的顺序在机器上进行，并且这些零件在机器之间通过单个机器人按顺序地进行运输。机器人在固定轨道上运动，分别为空载、负载、等待。在给定的时间间隔内，零件在机器上的加工时间各不相同，每个零件的加工时间是在加工完成后测量的。下图展示了Robotic flow shop 的两种形式，如图，零件A依次在机器1，2，3上进行加工，零件2依次在4，5，6上进行加工。

机器人流水车间调度问题因其在机械和电子制造业中的广泛应用而被广泛研究，如卡车差速器总成的单元化制造、金属切割和焊接。

文献扩展1：A review of recent theoretical development in scheduling dual-gripper robotic cellshttps://doi.org/10.1080/00207543.2017.1397792https://doi.org/10.1080/00207543.2017.1397792

文献扩展2：

Robot move sequence determining and multiple part-type scheduling in hybrid flexible flow shop robotic cellshttps://doi.org/10.1016/j.cie.2016.08.006https://doi.org/10.1016/j.cie.2016.08.006A reinforcement learning approach to parameter estimation in dynamic job shop schedulinghttps://doi.org/10.1016/j.cie.2017.05.026https://doi.org/10.1016/j.cie.2017.05.026

3 问题描述和模型建立

我们考虑一个机器人流水车间，其中两种零件类型A和B分别在每组专用机器nA和nB上加工。这两种零件类型不共享加工机器。只有一个搬运机器人，一次只能搬运一个零件；而且，每个零件都从输入缓冲区进入，输出缓冲区退出，机器之间不存在缓冲区，在机器i上的第j个单元的加工时间定义为Pij，这通过Pi(Min)和Pi(max)随机决定，它的计算在加工完成后进行。

首先使用Petri网对机器人流式车间进行建模，Petri网是离散事件动态系统的图形和数学建模工具。Petri网由库所、变迁、弧和记号组成，每个记号分别表示系统状态、事件、优先关系和实体。Petri网被广泛用于集群工具和机器人单元的建模和调度，因为它们可以很容易地表示系统状态转换或动态，以及执行操作时的资源共享和同步。