多智能体强化学习论文——ROMA

最新推荐文章于 2022-04-26 16:14:12 发布

条件反射104

最新推荐文章于 2022-04-26 16:14:12 发布

阅读量788

点赞数 1

分类专栏：多智能体强化学习文章标签：机器学习深度学习人工智能强化学习

本文链接：https://blog.csdn.net/qq_40317204/article/details/120652668

版权

18 篇文章 27 订阅

订阅专栏

论文：ROMA: Multi-Agent Reinforcement Learning with Emergent Roles

使用encode-decoder结构：
encoder产生均值和方差，角色 $\rho_i$ 从中采样得到：

decoder根据角色 $\rho_i$ 产生智能体 $i$ 的效用函数。
最大化条件互信息 $I(\tau_i;\rho_i|o_i)$ ，使得角色 $\rho_i$ 可通过轨迹 $\tau_i$ 辨认。可转化为最小化如下loss：
提出以下约束，鼓励两个智能体要么有相似的角色（执行相似的任务），要么行为大相径庭：

约束中第一项互信息，若此项较大，证明智能体i与智能体j角色相似，执行相似的任务。若第二项较大，证明两智能体角色差距较大，则行为应该不相似。

上述最优化问题可转化为优化如下loss：
最终loss为：
执行过程中，只有角色的encoder、decoder和智能体局部效用函数work。

在这里插入图片描述

关注