基于多智能体强化学习的自动化集装箱码头无冲突AGV路径规划

《Anti-conflict AGV path planning in automated container terminals based on multi-agent reinforcement learning》

International journal of production research/2021

Full article: Anti-conflict AGV path planning in automated container terminals based on multi-agent reinforcement learning (tandfonline.com)

1 摘要

        AGV冲突预防路径规划是提高集装箱码头运输成本和运营效率的关键因素。研究了集装箱自动化码头(ACTS)水平运输区自动导引车(AGV)的防冲突路径规划问题。根据磁钉导引AGVS的特点,构建了节点网络。通过对对向冲突和同点占领冲突两种冲突情况的分析,建立了求解最短路径的整数规划模型。针对这一问题,提出了多Agent深度确定性策略梯度(MADDPG)方法,并采用Gumbel-Softmax策略对节点网络产生的场景进行离散化。通过一系列的数值实验,验证了模型和算法的有效性和高效性。

2 介绍

        如图1所示,ACT大体上分为三个区域,即岸边的码头起重机作业区岸边的堆场作业区水平运输区。自动导引车(AGV)是连接ACT陆岸和海边的重要运输设备,主要在水平运输区域行驶。AGV沿着指定的路径行驶,将集装箱从海边运送到堆场或从堆场运送到海边。

         AGV到达海边或堆场的延误增加了装卸的等待时间,增加了成本。因此,对AGV行驶路径的合理规划和AGV冲突的优化不仅能提高整个自动化运输系统的运行效率,还能使AGV的运行效率得到很大的提高。

        本文的贡献主要体现在以下几个方面:

(1)根据磁钉的分布和AGV在水平运输区域的驱动规律,构造了一个节点网络。通过分析反向冲突情况和同点占用冲突情况,建立了一个整数规划(IP)模型,该模型旨在同时获得多个AGV的无路径冲突的最短路径。

(2)针对AGV路径规划问题,提出了一种基于强化学习的多智能体深度确定性策略梯度(MADDPG)策略的AGV路径规划方法。由于节点网络创建的场景是离散的,MADDPG算法用于连续场景,因此采用Gumbel Softmax技术对问题进行离散化。

车间场景和ACT场景中AGV路径规划的比较:

3 问题描述和数学模型

3.1 问题描述

        首先接收集装箱作业任务指令;然后规划到作业任务指令的装卸位置的合理路径;然后与装卸设备一起将集装箱装入AGV/从AGV卸下集装箱,完成装卸作业;最后等待下一指令。

       AGV的任务分配在上层决策中完成。由于自动导引车路径规划问题是一个不确定的问题,规划周期相对较短。在这种情况下,大多数自动导引车在规划范围内只能完成一项任务。在本研究中,我们只考虑在如此短的规划时间内每个AGV第一个任务的路径规划。对于更长的规划范围,我们的算法可以纳入滚动优化方法。

3.2 港口布局

        ACT的水平运输区是一个形状规则、无人操作的区域。与一般制造系统不同,该区域没有障碍物或工作站。为了准确描述ACT中的AGV路径规划问题,根据磁钉导向驱动的特点,构建了港口布局节点网络,如图2所示。AGV在完成任务分配后,需要经过多个节点才能完成任务。

 3.3 行驶规则

        AGV在任何时候都可以保持在当前位置或者行驶到规则允许的相邻节点,每个节点最多能容纳一个AGV,AGV不允许在网络之外行驶,如图3所示,在水平方向上,岸吊作业区有7条单向车道,在场地一侧的车道上交替设置6条单向车道,垂直方向的节点是双向的。

         邻接矩阵是根据数学模型中ACT的行驶规则来设定的。图4(a)显示了当有6个节点时的驱动规则。相邻节点可以在垂直方向上相互通过,并且可以通过水平方向传递信息。图4(b)显示相应的邻接矩阵。1表示可以达到,0表示不可能达到。

3.4 任务定义

        通常,ACTs的任务分为装载任务和卸载任务。装载任务是AGV捡起集装箱并通过水平运输区将其运输到指定的码头起重机操作位置,而卸载任务则相反。本文不区分任务是加载任务还是卸载任务,只区分AGV的开始结束节点,而AGV的路径规划是生成从当前位置到终点的路径。

3.5 冲突情况

        根据港口布局的节点网络和行为的实际情况,图5显示了两种冲突情况: 对立冲突和同点占领冲突。

4 多智能体强化学习

4.1 环境设置

状态:AGV的当前位置

动作:AGV的方向,移动速度

AGV之间的冲突风险可以通过距离函数获得:

         这是两辆 AGVs 之间最短的距离。例如,dmin = 1表示两个 agvs 之间有一个单位距离。当两个 agvs 之间的距离小于阈值距离时,将生成两个 agvs 之间的距离,直到下一个状态的 agvs 满足最小距离要求。

奖励:

 

4.2 Gumbel-softmax 抽样方法

        本文是离散的,这就需要行动空间的离散化。Gumbel-Softmax策略(Jang, Gu,和Poole2016)在终端环境中为离散的行为提供了可传递性,但也保持了动作空间的传递性。Gumbel-Softmax采样策略的具体过程如下:

(1)对于一个n维矢量多层感知器(MLP)输出,n个样本ε1,ε2,…,通过U(0,1)均匀分布产生;

(2)G是标准Gumbel分布的随机变量,计算公式为:G =−log(−log(εi));

(3)通过相应的+运算,得到一个新的值向量:

 (4)通过Softmax函数计算概率得到最终的类别。

4.3 算法过程

 

<think>好的,我现在需要回答用户关于基于多智能体强化学习(MARL)在自动化集装箱码头中集卡与AGV混行路径规划的研究的问题。首先,我得理解用户的具体需求。他们想了解如何应用MARL来解决这两种车辆的路径规划问题,可能涉及协同控制、避障、效率优化等方面。 接下来,我需要回忆相关的文献和已有的研究。根据用户提供的引用,特别是引用[1]、[2]、[3]和[5],这些涉及多智能体强化学习的协调、收敛性、经验共享以及网络流量工程中的应用。虽然这些引用不直接讨论集装箱码头,但其中的方法可能适用。比如,引用[1]提到的Max-Plus算法用于交通信号控制,可能可以借鉴到车辆协调中。引用[3]中的共享经验actor-critic方法可能帮助多个智能体协作学习。而引用[5]将MARL用于流量工程,说明MARL在处理动态、高维问题上的潜力,这对混行路径规划同样重要。 然后,我需要考虑自动化集装箱码头的具体挑战。集卡(可能指传统卡车)和AGV(自动导引车)混行时,路径规划需要考虑不同的车辆动力学特性、任务优先级、避撞规则以及码头作业的实时性。此外,码头环境动态变化,如集装箱装卸、其他车辆移动、设备故障等,需要系统具备自适应能力。 接下来,思考如何将MARL框架应用到这个问题中。每个车辆(集卡或AGV)可以作为独立的智能体,但需要协同合作。状态空间可能包括车辆位置、速度、目标点、周围障碍物信息等。动作空间涉及加速、减速、转向、路径选择。奖励函数需要设计以鼓励高效完成任务(如减少等待时间、最短路径)同时避免碰撞和拥堵。 可能遇到的难点包括部分可观测性(每个智能体只能感知局部环境)、非平稳性(其他智能体的策略在训练过程中不断变化)以及大规模状态动作空间导致的训练复杂度。引用[2]中提到的收敛性问题在这里尤为重要,需要确保多智能体系统在训练中稳定收敛。 此外,分层结构或选项图(如引用[4]中的Option Graph)可能有助于管理复杂的决策过程,将长期目标分解为可管理的子任务。例如,高层决策选择路径区域,低层控制具体导航。 最后,需要参考现有研究中的解决方案,比如结合集中式训练与分布式执行(CTDE)框架,使用共享的经验回放(如引用[3])来提高学习效率,或者采用通信机制让智能体交换信息以改善协调。 总结来说,回答应涵盖MARL的基本应用方法、具体挑战、解决方案思路以及相关研究的借鉴点,同时结合用户提供的引用内容来支持论点。</think>### 基于多智能体强化学习自动化集装箱码头混行路径规划研究 在自动化集装箱码头中,集卡(传统集装箱卡车)与AGV(自动导引车)的混行路径规划是一个典型的动态协同控制问题,需兼顾效率、安全与资源优化。多智能体强化学习(MARL)通过分布式决策与协作机制,为解决此类问题提供了新思路。 #### 1. **问题建模与MARL框架** - **状态空间**:包括车辆位置、速度、任务目标、周围障碍物分布、码头装卸设备状态等,需通过传感器或数字孪生系统实时获取[^5]。 - **动作空间**:AGV与集卡的导航指令(加速、转向、停车)、路径选择(动态避障或全局规划)。 - **奖励函数**:需平衡多目标: - 正向奖励:任务完成(集装箱运输耗时短)、路径最优(燃料/电力节省)、协作效率(减少路口等待)。 - 负向奖励:碰撞、拥堵、违反交通规则(如占用AGV专用道)[^1]。 #### 2. **关键技术挑战** - **部分可观测性**:单个车辆仅能感知局部环境,需通过通信或联合观测建模全局状态[^3]。 - **异构智能体协调**:AGV与集卡动力学模型不同(如转向半径、速度限制),需设计差异化策略网络。 - **动态环境适应**:码头装卸任务突发变化、设备故障等需快速响应,可通过分层强化学习(如Option Graph[^4])实现长短期目标分解。 #### 3. **解决方案与文献借鉴** - **协同训练框架**: - 采用**集中式训练+分布式执行(CTDE)**,如MADDPG算法,训练时利用全局信息优化策略,执行时仅依赖局部观测[^3]。 - 引入**Max-Plus协调机制**(引用[1]),通过消息传递解决路口冲突,优化多车交汇的优先级决策。 - **经验共享与收敛加速**: - 构建共享经验池(如引用[3]的SEAC方法),平衡个体探索与群体协作,缓解非平稳性问题[^2]。 - 结合课程学习(Curriculum Learning),从简单场景(单车道无干扰)逐步过渡到复杂混行场景。 - **安全约束嵌入**: - 轨迹规划层引入硬约束(如引用[4]),通过模型预测控制(MPC)确保动态避障,避免仅依赖学习策略的风险。 #### 4. **实验与验证** - **仿真环境**:基于数字孪生技术构建码头三维模型,模拟AGV与集卡混行流量(参考引用[5]中多区域网络优化方法)。 - **评估指标**:任务完成率、平均延迟时间、碰撞次数、路径偏离度。 - **对比基线**:与传统调度算法(如遗传算法+规则引擎)、单智能体RL对比,验证MARL在复杂场景下的优越性。 --- ###
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码丽莲梦露

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值