摘要
研究了具有单个联合奖励信号的合作多智能体强化学习问题。这类学习问题很难,因为组合的动作和观察空间往往很大。在完全集中和分散的方法中,我们发现了虚假奖励的问题和一种我们称之为“懒惰代理”的现象,这是由于部分可观察性而产生的。我们通过用一种新的价值分解网络体系结构训练个体代理来解决这些问题,该体系结构学会将团队价值函数分解成代理式价值函数。我们在一系列部分可观察的多智能体领域进行了实验评估,结果表明,学习这种价值分解会带来更好的结果,尤其是当与权重共享、角色信息和信息渠道相结合时。
引语
-
合作多智能体强化学习
- 其中几个学习代理的系统必须共同优化单个奖励信号——团队奖励——随着时间的推移而累积。每个代理都可以访问自己的(“本地”)观察,并负责从自己的操作集中选择操作。
-
集中式方法
- 原则上可以使用集中的方法来处理合作的MARL问题,通过串联的观察和组合的动作空间将问题简化为单主体强化学习.
- 问题:当一个代理学习到一个有用的策略时,就会发生这种情况,第二个代理不愿意学习,因为它的探索会阻碍第一个代理,并导致更差的团队奖励。
-
完全分布式方法
- 训练独立的学习者来优化团队奖励。
- 代理可能会收到源自其队友(未被观察到)行为的虚假奖励信号。由于无法解释自己观察到的奖励,独立RL通常是不成功的,无法区分队友的探索和环境中的随机性。
- 完全分布式和集中式方法的问题随着代理的增加而变得更糟,因为大多数奖励与个体代理无关,并且完全集中式方法的行动空间呈指数级增长。
-
解决办法
- 提高独立学习者表现的一种方法是设计个人奖励函数,更直接地与个体代理观察相关,团队价值函数的分解。
- 我们引入了一种新的个体学习的可加值分解方法。从团队奖励信号中学习最优线性值分解。具体动机是避免虚假奖励信号。每个代理学习的隐式值函数仅依赖于局部观察,因此更容易学习。
- 实验:我们评估权重共享、角色信息和信息通道,作为最近报告的额外增强,以提高样本复杂性和内存需求,我们主要比较的是三种场景;跨个体代理、完全分布式和集中式方法的价值分解。我们对这些技术的组合进行了研究和基准测试,并将其应用于一系列新的有趣的双人协作领域。
一种面向协作多智能体的深度强化学习框架
图例
- 独立智能体体系结构显示了本地观察如何随着时间进入两个智能体的网络(显示了三个步骤),通过低级线性层到达递归层,然后决策层产生单独的Q值
- 价值分解单个体系结构显示了本地观察如何随着时间进入两个代理的网络(显示了三个步骤),通过低级线性层到达递归层,然后决策层产生单个“值”,这些值被求和到一个联合的Q函数进行训练,而动作是独立于单个输出产生的。
模型框架
- 利用系统的联合作用-价值函数可以被附加地分解成跨代理的价值函数。
- 其中Qi仅基于每个代理的本地观察。
- 我们通过求和从使用联合奖励的Q学习规则中学习Qi,即Qi是隐式学习的,而不是从特定于代理i的任何奖励中学习的。
- 这种方法的一个特性是,尽管学习需要一定程度的集中化,但是所学习的代理可以独立部署,因为每个代理都贪婪地按照其本地值进行操作,这相当于一个中央仲裁器通过最大化l联合奖励来选择联合动作。
举例说明
- r(s,a) = r1(o1,a1) +r2(o2,a2) ,其中(o1,a1) 和(o2,a2) 分别是代理1和2的(观察,动作)。
- 问题:代理的预期回报可能更依赖于代理的局部观察和行动(o1,a1)。如果(o1,a1)不足以完全模拟(s,a),那么代理1可以在其LSTM存储来自历史观测的附加信息,或者在通信信道中接收来自代理2的信息,在这种情况下,我们可以预期以下近似是有效的:
- 减少可学习参数数量的一种方法是在代理之间共享特定的网络权重。权重分配还产生了代理不变性的概念,这有助于避免代理懒惰的问题。
- 策略代理不变性
- 不总是希望具有代理不变性,它们只是有条件的代理不变,即只有在相同角色的条件下才具有相同的策略。我们还考虑了代理网络之间的信息通道,即代理网络模块之间的可区分连接。这些具有共享权重的架构满足代理不变性。
实验
- 使用两个集中式代理作为基线,其中一个它依赖于学习的价值分解,以及一个直接从联合奖励信号中学习的单个代理。
- 我们在二维迷宫环境中进行了这组实验,代理有一个3 × 5 ×5的小观察窗口,第一维是一个RGB通道,第二和第三个是迷宫维度,每个代理看到一个两边各2个方块,前面4个方块的盒子。
- 代理架构。v表示价值分解,S表示共享权重和不变网络,Id表示提供了角色信息,L表示低层通信,H表示高层通信,C表示集中化。选择这些架构是为了展示具有价值分解的独立代理的优势,并研究以逻辑顺序添加的附加增强的好处。