多智能体强化学习论文——MAAC

最新推荐文章于 2024-05-11 20:47:52 发布

条件反射104

最新推荐文章于 2024-05-11 20:47:52 发布

阅读量2.7k

点赞数

分类专栏：多智能体强化学习文章标签：强化学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40317204/article/details/119885273

版权

多智能体强化学习专栏收录该内容

18 篇文章 27 订阅

订阅专栏

存在的问题&研究动机&研究思路

多智能体值函数逼近，本质上来说是一个多任务回归问题。
MAAC从当前策略中采样动作值，而MADDPG从replay buffer中抽样更新（容易造成overgeneralization）。
通过注意力计算的模型，可以使得每个智能体不需要相同的动作空间，也不需要全局的reward，并且动态的关注其他智能体（ $\alpha_i$ 动态变化）。这一切可以通过一个智能体 $i$ 的编码 $e_i$ 和其他智能体对智能体 $i$ 的影响 $x_i$ ，concatenate。

创新点

遵循CTDE框架，并且通过共享参数的注意力机制来计算critic。（对比ATOC，在策略网络中共享信息，即集中式的策略网络和分散式的critic网络，与MAAC是互补的工作方式。）
输入空间随智能体数量的增加而线性增长，而不像MADDPG那样是呈二次增长的。
适用于任何奖励设置形式：可适用于只有共同reward的协作环境，也可以用于个体有独立奖励的环境。（协作、竞争、混合式环境皆可。）
为了鼓励exploration和避免收敛到非最优的确定性策略，将Actor-Critic替换为Soft Actor-Critic（SAC），损失函数中加入熵。

算法框图

在这里插入图片描述

实验

实验平台：Cooperative Treasure Collection和Rover-Tower。
对比算法：
1. DDPG和MADDPG经过Gumbel-Softmax处理为discrete后作为baselines。
2. MADDPG和COMA正常版和SAC版。
3. 消融实验：MAAC的注意力系数都设置为1/N-1.
证明了MAAC算法通过加入attention，使得算法有选择性的重点关注部分智能体，相比于MADDPG+SAC等baseline有较强的scalability。

条件反射104

关注

0
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
多智能体强化学习论文——MAAC

存在的问题&研究动机&研究思路多智能体值函数逼近，本质上来说是一个多任务回归问题。MAAC从当前策略中采样动作值，儿MADDPG从replay buffer中抽样更新（容易造成overgeneralization）。通过注意力计算的模型，可以使得每个智能体不需要相同的动作空间，也不需要全局的reward，并且动态的关注其他智能体（αi\alpha_iαi动态变化）。这一切可以通过一个智能体iii的编码eie_iei和其他智能体对智能体iii的影响xix_ixi，concaten
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。