多智能体强化学习论文——ROMA

论文:ROMA: Multi-Agent Reinforcement Learning with Emergent Roles

存在的问题&研究动机&研究思路

  1. ROMA提出智能体的策略是建立在智能体角色上的。
  2. 智能体的角色是由智能体的局部观测值决定的随机变量,有相似职责的智能体有相似的角色。相似智能体倾向于特定的子任务。

创新点

  1. 使用encode-decoder结构:
    encoder产生均值和方差,角色 ρ i \rho_i ρi从中采样得到:
    在这里插入图片描述
    decoder根据角色 ρ i \rho_i ρi产生智能体 i i i的效用函数。

  2. 最大化条件互信息 I ( τ i ; ρ i ∣ o i ) I(\tau_i;\rho_i|o_i) I(τi;ρioi),使得角色 ρ i \rho_i ρi可通过轨迹 τ i \tau_i τi辨认。可转化为最小化如下loss:
    在这里插入图片描述

  3. 提出以下约束,鼓励两个智能体要么有相似的角色(执行相似的任务),要么行为大相径庭:
    在这里插入图片描述
    约束中第一项互信息,若此项较大,证明智能体i与智能体j角色相似,执行相似的任务。若第二项较大,证明两智能体角色差距较大,则行为应该不相似。

    上述最优化问题可转化为优化如下loss:
    在这里插入图片描述
    在这里插入图片描述

  4. 最终loss为:
    在这里插入图片描述

  5. 执行过程中,只有角色的encoder、decoder和智能体局部效用函数work。

算法框图

在这里插入图片描述

some points

  1. 通过最大化互信息使得两种分布更接近。
  2. 将角色转化为分布,从而可以最大化互信息,从而使得角色 ρ i \rho_i ρi可与轨迹 τ i \tau_i τi实现近似的一一对应,即Identifiable。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值