基于多智能体强化学习的自主移动机器人实时订单调度

原文:Real-time order dispatching for a fleet of autonomous mobile robots using multi-agent reinforcement learning(2020)


摘要

自主移动机器人(AMRs)越来越多地被用于动态生产环境中实现高效的物料流动。由于环境的快速变化带来的复杂性,以及调度、路径规划和路径执行之间的紧密耦合,在这样的环境中调度运输订单非常困难。对于订单调度,提出了一种使用多agent强化学习的方法,其中AMR agent根据各自的观察学习对订单进行投标。在机器人仿真环境中研究了该方法。结果表明,与常用的调度规则相比,该算法的订单分配效率更高。


1. 绪论

移动物资运输系统通常由自动引导车辆(agv)组成——无人驾驶的移动车辆能够遵循预定的运输路线。这些路线通常是由放在地板上的磁带来确定的。然而,最近一种被称为自主移动机器人(AMRs)的更先进的车辆正在被越来越多地使用。amr与agv的导航能力不同。它们配备了各种传感器,可以探测周围的静态和动态物体,从而实现自主定位和导航。它们的路径是根据静态和动态障碍物实时生成的,使amr可以自由移动,而不需要预定义的路由。

虽然系统的灵活性得到了提高,但实时路径生成带来了车队管理系统(FMS)必须满足的额外挑战,该系统执行诸如运输订单调度、车辆路由和任务执行调度等活动。在amr的情况下,这些可能是紧密耦合的,这导致整个系统的计算复杂度很高。例如,当考虑到执行的所有可能AMR路径和时间窗口时,即使将几个传输命令分配给两个AMR也会遭受组合爆炸的影响。因此,集中的AMR车队管理和订单执行优化往往无法实时执行。

这可以通过分离FMS活动并分别考虑它们来解决。例如,为了单独考虑调度问题,必须在问题制定中排除路由和调度。从调度的角度来看,AMR只需要能够从A点(例如取货点)移动到B点(例如落货点)。它选择哪条路线,如何避开障碍等等都是由AMR自主解决的。然后,通常使用集中方法,其中简单规则(启发式)定义对amr的顺序分配。这些规则通常没有考虑到特定问题的设置,如工厂布局或单个AMR能力,并可能导致次优解决方案,甚至导致系统作为一个整体的不稳定行为,例如死锁。

为此,本文提出了一种基于多智能体强化学习(RL)的分布式实时订单调度方法。该方法使调度适应特定的情况,这是由于工厂布局和运输订单到达的动态而产生的。amr由代理代表,代理根据对环境的观察学会对单个运输订单出价。该方法通过基于物理的AMR仿真验证。并与常用的实时调度规则进行了比较。


2. 移动运输系统的订单调度

在工场,运输订单可能是多种多样的,它们的到达可能很难提前预测,使长期规划变得困难。由于上述计算的复杂性,往往更好的是实时进行调度决策ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值