基于多智能体强化学习的自主移动机器人实时订单调度

最新推荐文章于 2025-03-21 11:15:19 发布

C_h_o_o

最新推荐文章于 2025-03-21 11:15:19 发布

阅读量1.7k

点赞数

分类专栏： AGV-仓储文章标签：人工智能

本文链接：https://blog.csdn.net/C_h_o_o/article/details/127991066

版权

原文：Real-time order dispatching for a fleet of autonomous mobile robots using multi-agent reinforcement learning（2020）

摘要

自主移动机器人(AMRs)越来越多地被用于动态生产环境中实现高效的物料流动。由于环境的快速变化带来的复杂性，以及调度、路径规划和路径执行之间的紧密耦合，在这样的环境中调度运输订单非常困难。对于订单调度，提出了一种使用多agent强化学习的方法，其中AMR agent根据各自的观察学习对订单进行投标。在机器人仿真环境中研究了该方法。结果表明，与常用的调度规则相比，该算法的订单分配效率更高。

1. 绪论

移动物资运输系统通常由自动引导车辆(agv)组成——无人驾驶的移动车辆能够遵循预定的运输路线。这些路线通常是由放在地板上的磁带来确定的。然而，最近一种被称为自主移动机器人(AMRs)的更先进的车辆正在被越来越多地使用。amr与agv的导航能力不同。它们配备了各种传感器，可以探测周围的静态和动态物体，从而实现自主定位和导航。它们的路径是根据静态和动态障碍物实时生成的，使amr可以自由移动，而不需要预定义的路由。

虽然系统的灵活性得到了提高，但实时路径生成带来了车队管理系统(FMS)必须满足的额外挑战，该系统执行诸如运输订单调度、车辆路由和任务执行调度等活动。在amr的情况下，这些可能是紧密耦合的，这导致整个系统的计算复杂度很高。例如，当考虑到执行的所有可能AMR路径和时间窗口时，即使将几个传输命令分配给两个AMR也会遭受组合爆炸的影响。因此，集中的AMR车队管理和订单执行优化往往无法实时执行。

这可以通过分离FMS活动并分别考虑它们来解决。例如，为了单独考虑调度问题，必须在问题制定中排除路由和调度。从调度的角度来看，AMR只需要能够从A点(例如取货点)移动到B点(例如落货点)。它选择哪条路线，如何避开障碍等等都是由AMR自主解决的。然后，通常使用集中方法，其中简单规则(启发式)定义对amr的顺序分配。这些规则通常没有考虑到特定问题的设置，如工厂布局或单个AMR能力，并可能导致次优解决方案，甚至导致系统作为一个整体的不稳定行为，例如死锁。

为此，本文提出了一种基于多智能体强化学习(RL)的分布式实时订单调度方法。该方法使调度适应特定的情况，这是由于工厂布局和运输订单到达的动态而产生的。amr由代理代表，代理根据对环境的观察学会对单个运输订单出价。该方法通过基于物理的AMR仿真验证。并与常用的实时调度规则进行了比较。