论文阅读:MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report

MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report

论文:MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report
项目地址:MAPEL: Multi-Agent Pursuer-Evader Learning using Situation Report

摘要

在疆土防御游戏中,包括追捕者,逃跑者以及守卫目标。追捕者的任务是在逃跑者到达目标之前抓住逃跑者,逃跑者的任务是到达目标。设定所有智能体的感知范围有限,只能在各自的观测空间内相互探测。本文专注于多智能体之间的合作,提出了一种利用时空图(spatio-temporal graph)表示学习结构化合作的多智能体追捕-逃避学习算法(MAPEL:Multi-Agent Pursuer-Evader Learning )算法的关键是学习以分散/去中心化的方式进行,智能体使用态势报告(situation report)更新从彼此的局部观察中了解整个环境。在MAPEL中,一个智能体只有在对手或目标进入其观察空间时,才会使用态势报告更新所有智能体。

Introduction

在多智能体系统中,所有智能体共享一个环境。智能体之间相互合作或者彼此独立完成一个联合目标。多智能体追捕-逃避任务的复杂性来自于多个方面:环境类型,智能体的观测,动作,合作策略和奖励设定,由于动态性和复杂性,追捕-逃避问题解决具有挑战性。一些学者做出了研究,一种方法是对智能体运动的随机建模。本文研究了利用结构化消息传递进行写作的智能体的局部观察问题。
本文提出了一个零和博弈基础上的追捕-逃避问题,两方智能体数量相等。假设环境部分可观测,保证在实际中可用。然而,随着智能体和环境之间的复杂交互作用,局部观测下的学习变得困难。一些学者使用强化学习来解决追捕-逃避问题,但是大部分采用的都是全局可观测。本文提出一种利用时空图在局部可观测下实现智能体之间结构化合作的深度强化学习算法。MAPEL算法采用一种态势报告的抽象信息,它可以在智能体之间共享以实现合作。本文提出了两种基于密集通信和稀疏通信的态势报告更新方法。在游戏设定中,追捕者和逃跑者有着相同的速度。

相关工作

多智能体强化学习(MARL)由一组共享一个共同环境的智能体组成。由于智能体和环境之间会产生交互,因此在这样的框架下学习是困难的。传统的分布式/去中心化的强化学习方法,例如Q-learning,假设其他智能体是环境的不部分。这种设定在多智能体环境下不适用,无法保证收敛,同时环境不稳定,导致学习不稳定。

  • 联合行动学习(joint action learning)或者集中策略学习是多智能体强化学习的一种方法。
  • 分散学习需要不同智能体之间的有效合作。
  • 一些多智能体问题可以用图来明确描述。

问题描述

本文将多智能体追捕-逃避问题建模为一个M*N维的网格世界,障碍物随机放置(服从 N \mathcal{N} N(0, δ \delta δ)。设定有 P \mathbf{P} P个追捕者, E \mathbf{E} E个逃跑者,一个目标 T \mathbf{T} T。在任意时刻 t t t内,追捕者 p ∈ P p\in\mathbf{P} pP能够获得其他所有追捕者的全局信息以及目标的位置信息,逃跑者 e ∈ E e\in\mathbf{E} eE假设能够获得其他所有逃跑者的位置和目标的位置。假设:每个智能体的感知范围为 l ∗ w l*w lw,障碍物会阻挡感知信息,所有智能体的速度 v v v在整局游戏中不变,目标位置保持静止。
游戏开始,随机放置随机大小的障碍物,目标放置在网格中间的随机位置,纵向。追捕者和逃跑者随机出现在网格的两边,如果网格位置为空,则智能体可以移动到该位置。当智能体位置和目标位置相同时,到达目标。当追捕者和逃跑者位置相同时,逃跑者被抓获,一旦被抓获,逃跑者不能再移动,但追捕者可以移动到相邻位置。
游戏设定:

  • 逃跑者到达目标,逃跑者成功

  • 追捕者在逃跑者之前到达目标,追捕者成功

  • 所有逃跑者被抓住,追捕者胜利
    奖励设定:

  • 逃跑者成功 w e = 0.5 , w p = − 0.5 w_e=0.5,w_p=-0.5 we=0.5,wp=0.5

  • 追捕者在逃跑者之前到达目标胜利, w p = 0.5 , w e = − 0.5 w_p=0.5,w_e=-0.5 wp=0.5,we=0.5

  • 追捕者抓到所有逃跑者胜利, w p = 1 , w e = − 1 w_p=1,w_e=-1 wp=1,we=1
    奖励平均分配给一个团队中的所有智能体。

方法

在本节中,我们首先介绍一种简单的方法,其中智能体贪婪地向目标移动,然后是第二种方法,即深度 Qlearning 的多智能体公式,然后我们介绍了所提出的具有两种不同合作策略的方法 MAPEL。

原始方法

一个智能体试图向目标 T 移动。每个智能体都有环境的局部视图,并且知道其团队中其他智能体的位置和目标的位置。智能体沿直线向目标移动。 如果视线上朝向目标的下一个位置被阻挡,它会随机选择一个距离该线最近的相邻位置。 如果追捕者在其观察空间中观察到逃跑者,它会计算到逃跑者的最短路径并选择沿该路径的下一个位置。 类似地,如果追捕者/逃跑者在其观察空间中观察目标,它会计算到目标的最短路径并选择沿该路径的下一个位置。 此外,如果追捕者在其视野中观察到目标和一个或多个逃跑者,它会计算到所有这些目标的最短路径,并选择沿路径长度最短的下一个位置。

多智能体的Q-learning

请查看原文

MAPEL

在Q-learning的方法中,联合策略仅依赖于所有联合智能体的当前观测值。智能体不可能知道其他智能体的观察。此外,联合观察和行动空间的大小随着智能体数量指数增长。
我们提出了一种称为 MAPEL 的时空 (st) 架构,该架构允许智能体通过态势报告合作,通过彼此分享观察结果来学习各自的策略。
一个智能体团队用时空图表示 G = N , ε M , ε T \mathcal{G}=\mathcal{N,\varepsilon_M,\varepsilon_T} G=N,εM,εT表示, N \mathcal{N} N代表智能体的总数量, ε M \varepsilon_M εM是智能体之间的总边数,即用来传递态势报告的边数, ε T \varepsilon_T εT在T时刻时连接智能体的边数。
!请查看图的相关理论
用于智能体之间合作的时空表示。 (a)图显示了三个智能体之间使用时空图及展开的合作。 (b)显示了四个智能体之间的点对点情况报告方法,(c)显示了四个智能体之间的环形情况报告方法。

两种态势报告的更新方式:

P2PSR:点对点,如图3(b),每个节点之间可以共享信息,这就是密集交流的情况。当一个智能体知道其他智能体的观测,它就不用去探索他们的区域。智能体在 t t t时刻接收到的态势报告为大小 N − 1 \mathcal{N}-1 N1的向量,代表了来自其他智能体的信息。如果想来那个中的一个元素是1,则表示智能体在其观测空间看到了目标或对手,为0则表示观测空间为空。
RSR:环态势报告,随机选择一个智能体组成环,每个智能体只能将信息传递给相邻的节点。这种方法可以锁定一个区域,并在其中进行探索。智能体在 t t t时刻接收到的态势报告为:从两个相邻智能体收到大小为2的向量。

MPEL的框架结构

在这里插入图片描述每个智能体由一个RNN表示,并使用一个CNN表示他们的观察特征并将自己的观察结果通过态势报告传递给其他智能体。每个智能体使用收到的态势报告和自己当前的观察来计算下一步的动作,RNN维护智能体历史信息。RNN和态势报告结合处理部分可观测的问题,态势报告是对观测结果抽象而清晰的表达。这有助于减少由于其他智能体策略变化而引起的隐藏状态噪声(环境不稳定性)。例如:如果追捕者观察到目标或者逃跑者,它可以通过态势报告告知伙伴们它的观察结果,这可以帮助其他追捕者改变他们的决定,不去这个追捕者的方向,而在其他地方展开搜索。

实验

在这里插入图片描述

状态空间

状态空间设置为5个channel,每个大小为32*32,

  • channel1:agent的观察空间
  • channel2:agent自身的位置
  • channel3:团队中其他agent的位置
  • channel4:目标的位置
  • channel5:被观察到的对手的位置

结果

在这里插入图片描述

进一步工作

  • 模型的迁移能力
  • 智能体的设定,比如不同速度的对手,不同大小的队伍,移动的目标
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值