读书笔记 - Clique-based Cooperative Multiagent Reinforcement Learning Using Factor Graphs

本文探讨了多智能体系统中合作强化学习的问题,特别是针对分布式传感器网络。通过结合转换函数的稀疏强化学习,将智能体划分为团并使用因子图进行局部Q值函数分解,提出了一种新的协调方法。这种方法减少了学习时间,提高了学习策略的质量,并通过实验在传感器网络中展示了优于其他多智能体强化学习算法的性能。
摘要由CSDN通过智能技术生成

《Clique-based Cooperative Multiagent Reinforcement Learning Using Factor Graphs》

在许多情况下,代理不是独立的,而是与其他代理连接,代理相互交互以共同影响环境。有时,每个代理只能获取其附近环境的状态以及其邻居代理的行为。这种系统称为多代理系统(MAS)[5]。

如果代理人有共同的兴趣并协调完成任务,那么他们就是合作的,例如,无线网络代理商合作制定一个稳定的大联盟阵型,以便在每个链路的平均费率方面产生显着的收益[6]。
否则,如果每个代理商只追求自己的利益,那么它们就是竞争性的,例如,一对一格斗游戏中的代理商相互竞争以获得每个人的最大利润[7-8]。

在本文中,我们只处理合作代理。在MAS中,代理人必须从环境和其他代理中学习其策略。这使得学习系统更难以收敛。因此,MAS中的一个重要问题是如何使代理与其邻居的部分状态信息及行为进行合作[9-10]。


合作MAS中RL动力学的早期分析由Claus和Boutilier完成[13]。他们分析了双因素重复游戏中独立学习者的动态。此外,Tuyls [14]通过进化博弈论分析了独立的Q学习(IQL)。 Gomes和Kowalczyk [15]用ε-贪婪的探索分析了IQL。 Kianercy和Galstyan [16]用玻尔兹曼探索分析了IQL。这些结果为设计MARL算法提供了灵感。
事实上,MARL的大多数理论结果仅限于重复游戏。从马尔可夫决策过程和博弈论中得出,随机博弈被提出作为研究MARL的一般框架[17-18]。在此框架下,已经提出了许多MARL算法。例子是minimax-Q [17],Friend-or-foe [19],Nash-Q [20],IGA [21]和Wolf-PHC [22]。

随着代理数量的增加,状态空间和联合行动空间迅速增长,这就是MARL中所谓的维数灾难问题。
自适应动态规划(ADP)【23-29】是一种通过使用神经网络逼近价值函数和策略来缓解此类问题的有效方法。
Bazzan等人【34-35】将交通信号灯代理分成小组以减少联合行动空间,并提出了一种在随机博弈stochastic games中协调多代理的方法。
Kok等人【36】提出了稀疏协作Q学习,其中全局Q值函数被分解为局部Q值函数,每个Q值函数仅依赖于状态和动作的所有变量的一小部分。每个代理都维护一个本地Q值函数,并使用max-plus算法【37】获得的贪婪联合动作对其进行更新。

但是,仍有两个问题需要充分解决:
首先,原始稀疏Q学习不与转换函数transition function一起使用,这通常意味着相对较低的学习速度。
其次,max-plus算法只能处理具有两个变量的局部Q值函数,这限制了全局函数分解的推广。


在本文中,我们的目标是解决可以分解为子任务的多任务系统的协调问题
首先,估计转换函数并用于更新Q值函数,以减少学习时间。
其次,将代理划分为团cliques,每个团负责特定的子任务。
在这种情况下,全局Q值函数被分解为几个更简单的局部Q值函数的总和,这些函数可以包含两个以上的变量。这意味着可以根据问题考虑更灵活的分解。这种分解可以用因子图表示,并且通过max-plus算法以分布式方式获得贪婪联合动作greedy joint action

本文的结构如下。
在第二节中,我们描述了分布式传感器网络(DSN)的协调问题。
第三节介绍随机游戏,并提供可能的流行MARL算法进行比较。
在第四节中,提出了使用因子图的基于clique的稀疏协作RL算法。我们将展示如何更新转换函数,如何将代理分解为派系,以及如何使用因子图来解决问题。
在第五节中,提出并比较了各种MARL算法的实验结果。
第六节给出了结论。


分布式传感器网络(DSN)

DSN问题是一个分布式优化问题,它是NIPS 2005基准测试研讨会的一部分[38]。
它由两个传感器阵列组成。图1示出了具有八个传感器的DSN,每个传感器具有三个动作,即,聚焦在其左侧,聚焦于其右侧或根本不聚焦。请注意,角传感器的动作范围不仅限于单元格。例如,即使焦点位于任何单元格之外,传感器0也可以将焦点对准其左侧。
在三个单元格内有两个目标移动。每个目标有相同的概率移动到其左侧单元格,移动到其右侧单元格或只是停留在原来的位置。这两个目标按照从左到右的顺序采取行动。每个单元一次最多可被一个目标占用。如果目标决定移出三个单元格之外或移动到已被另一个目标占据的单元格,它将保持原样。
在这里插入图片描述
每个目标在开始时具有最大能量值(即3)。如果至少有三个传感器聚焦在它所在的单元上,目标的能量将减少1,称为命中。如果它的能量值为0,称为捕获,它将从DSN消失而不占据任何单元。如果所有目标都被消除或经过300步,那么一轮就会完成。

每次聚焦动作都会产生-1的奖励。没有聚焦产生0的奖励。如果捕获是由四个传感器引起的,则具有三个最高指数的传感器分别奖励10。

传感器不知道是否发生了命中或捕获,但他们知道邻居的行为目的是在一轮中获得尽可能多的累积奖励

在本文中,两个目标最初位于两个随机单元格中。在每个步骤中,传感器首先做出动作并对目标起作用,产生中间状态intermediate state,然后轮到目标移动,转移到下一个状态。
很明显,直接奖励仅取决于中间状态,因为它们包含是否存在命中,捕获,聚焦或无焦点的信息。


在这个问题中,共有3^8 = 6561个动作和37个状态。
理论上,单代理RL算法可以学习一组代理的最优策略,如果它们被视为一个整体。然而有两个问题使得它不适合DSN问题:
首先,随着代理数量的增加,联合行动空间呈指数增长。
其次,在DSN问题中,每个代理都不可能观察到完整的环境状态,以及所有其他代理的动作。</

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值