Value-Decomposition Networks For Cooperative Multi-Agent Learning(VDN)

摘要

研究了具有单个联合奖励信号的合作多智能体强化学习问题。这类学习问题很难,因为组合的动作和观察空间往往很大。在完全集中和分散的方法中,我们发现了虚假奖励的问题和一种我们称之为“懒惰代理”的现象,这是由于部分可观察性而产生的。我们通过用一种新的价值分解网络体系结构训练个体代理来解决这些问题,该体系结构学会将团队价值函数分解成代理式价值函数。我们在一系列部分可观察的多智能体领域进行了实验评估,结果表明,学习这种价值分解会带来更好的结果,尤其是当与权重共享、角色信息和信息渠道相结合时。

引语

  • 合作多智能体强化学习

    • 其中几个学习代理的系统必须共同优化单个奖励信号——团队奖励——随着时间的推移而累积。每个代理都可以访问自己的(“本地”)观察,并负责从自己的操作集中选择操作。
  • 集中式方法

    • 原则上可以使用集中的方法来处理合作的MARL问题,通过串联的观察和组合的动作空间将问题简化为单主体强化学习.
    • 问题:当一个代理学习到一个有用的策略时,就会发生这种情况,第二个代理不愿意学习,因为它的探索会阻碍第一个代理,并导致更差的团队奖励
  • 完全分布式方法

    • 训练独立的学习者来优化团队奖励。
    • 代理可能会收到源自其队友(未被观察到)行为的虚假奖励信号。由于无法解释自己观察到的奖励,独立RL通常是不成功的,无法区分队友的探索和环境中的随机性
    • 完全分布式和集中式方法的问题随着代理的增加而变得更糟,因为大多数奖励与个体代理无关,并且完全集中式方法的行动空间呈指数级增长。
  • 解决办法

    • 提高独立学习者表现的一种方法是设计个人奖励函数,更直接地与个体代理观察相关,团队价值函数的分解
    • 我们引入了一种新的个体学习的可加值分解方法。从团队奖励信号中学习最优线性值分解。具体动机是避免虚假奖励信号。每个代理学习的隐式值函数仅依赖于局部观察,因此更容易学习。
    • 实验:我们评估权重共享、角色信息和信息通道,作为最近报告的额外增强,以提高样本复杂性和内存需求,我们主要比较的是三种场景;跨个体代理、完全分布式和集中式方法的价值分解。我们对这些技术的组合进行了研究和基准测试,并将其应用于一系列新的有趣的双人协作领域。

一种面向协作多智能体的深度强化学习框架

图例

在这里插入图片描述

  • 独立智能体体系结构显示了本地观察如何随着时间进入两个智能体的网络(显示了三个步骤),通过低级线性层到达递归层,然后决策层产生单独的Q值

在这里插入图片描述

  • 价值分解单个体系结构显示了本地观察如何随着时间进入两个代理的网络(显示了三个步骤),通过低级线性层到达递归层,然后决策层产生单个“值”,这些值被求和到一个联合的Q函数进行训练,而动作是独立于单个输出产生的。

模型框架

  • 利用系统的联合作用-价值函数可以被附加地分解成跨代理的价值函数。
    在这里插入图片描述
  • 其中Qi仅基于每个代理的本地观察。
  • 我们通过求和从使用联合奖励的Q学习规则中学习Qi,即Qi是隐式学习的,而不是从特定于代理i的任何奖励中学习的
  • 这种方法的一个特性是,尽管学习需要一定程度的集中化,但是所学习的代理可以独立部署,因为每个代理都贪婪地按照其本地值进行操作,这相当于一个中央仲裁器通过最大化l联合奖励来选择联合动作

举例说明

  • r(s,a) = r1(o1,a1) +r2(o2,a2) ,其中(o1,a1) 和(o2,a2) 分别是代理1和2的(观察,动作)。
    在这里插入图片描述
  • 问题:代理的预期回报可能更依赖于代理的局部观察和行动(o1,a1)。如果(o1,a1)不足以完全模拟(s,a),那么代理1可以在其LSTM存储来自历史观测的附加信息,或者在通信信道中接收来自代理2的信息,在这种情况下,我们可以预期以下近似是有效的:
    在这里插入图片描述
  • 减少可学习参数数量的一种方法是在代理之间共享特定的网络权重。权重分配还产生了代理不变性的概念,这有助于避免代理懒惰的问题。
  • 策略代理不变性
    在这里插入图片描述
  • 不总是希望具有代理不变性,它们只是有条件的代理不变,即只有在相同角色的条件下才具有相同的策略。我们还考虑了代理网络之间的信息通道,即代理网络模块之间的可区分连接。这些具有共享权重的架构满足代理不变性。

实验

  • 使用两个集中式代理作为基线,其中一个它依赖于学习的价值分解,以及一个直接从联合奖励信号中学习的单个代理。
  • 我们在二维迷宫环境中进行了这组实验,代理有一个3 × 5 ×5的小观察窗口,第一维是一个RGB通道,第二和第三个是迷宫维度,每个代理看到一个两边各2个方块,前面4个方块的盒子。
  • 代理架构。v表示价值分解,S表示共享权重和不变网络,Id表示提供了角色信息,L表示低层通信,H表示高层通信,C表示集中化。选择这些架构是为了展示具有价值分解的独立代理的优势,并研究以逻辑顺序添加的附加增强的好处。
    在这里插入图片描述

代理

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Dichromatic-decomposition-master是一个开源项目,主要用于解决图像中的色彩问题。在图像处理中,我们常常需要将一张彩色图像拆分成红色通道、绿色通道和蓝色通道三个色彩通道,这样就可以对每个通道进行单独的处理。Dichromatic-decomposition-master项目提供了一种可靠的算法,可以实现彩色图像的分解。 这个项目分为两个部分,一部分是算法的实现,另一部分是示例代码的编写。算法方面,Dichromatic-decomposition-master使用了一种称为二色分解的方法。该方法使用了三个矩阵R、G和B,分别表示图像中红、绿、蓝三个颜色通道。然后通过矩阵运算,可以得到三个分解矩阵Y、U、V。这三个矩阵分别表示亮度、蓝色偏移量和红色偏移量。通过这个算法,我们可以快速准确地分解彩色图像,得到各个色彩通道的信息。 示例代码方面,Dichromatic-decomposition-master提供了一些 Python 脚本,用于演示分解算法的使用。这些脚本可以实现图像的加载、分解、充分和可视化。通过这些示例代码,用户可以更好地了解该算法的原理和应用,并使用其进行图像处理。 总之,Dichromatic-decomposition-master是一个非常实用的图像处理项目,它提供了一种可靠的算法,可以快速准确地将彩色图像分解成更小的色彩通道。如果你需要进行图像处理,它是一个值得推荐的工具。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值