Networked Multi-Agent Reinforcement Learning in Continuous Spaces 笔记

最新推荐文章于 2022-01-18 10:53:09 发布

强殖装甲凯普

最新推荐文章于 2022-01-18 10:53:09 发布

阅读量505

点赞数

分类专栏：论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38163755/article/details/104858224

版权

文章目录

前言
方法

前言

针对多智能体协作场景，通过一个可能随时间变化的通讯网络交换信息，提出完全分布式ac算法，只依赖于neighbor-to-neighbor的通信。连续状态与动作空间，使用线性函数近似时具有收敛性保证。
解决巨大甚至连续的状态动作空间的常用算法是AC，技术核心是随机策略梯度SPG，但是梯度估计的方差很大，特别是连续动作空间。于是有了确定性策略梯度DPG以及对应的AC算法，专门针对连续动作空间设计。然而这需要off-policy的探索。作者的分布式MARL设置中，学习时agent不知道其他agent的策略。连续动作空间on-policy的AC算法借助期望策略梯度EPG。
作者针对完全分布式连续状态动作空间的MARL场景，1）将EPG的形式扩展到MARL；2）提出一个完全分布式的AC算法，只依赖neighbor-to-neighbor的通信；3）当使用线性函数近似时，有收敛性保证。这是第一个联系分布式架构与MARL的尝试，分布式指独立的MDP，MARL不是。
Networked multi-agent Markov decision process有一个随时间变化的无向通讯图。每个agent都能看到全局状态 $s_t$ ，然后各自执行动作得到联合动作 $a_t$ ，每个agent收到的reward不同，但是都是关于

最低0.47元/天解锁文章

强殖装甲凯普

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Networked Multi-Agent Reinforcement Learning in Continuous Spaces 笔记

文章目录前言方法前言针对多智能体协作场景，通过一个可能随时间变化的通讯网络交换信息，提出完全分布式ac算法，只依赖于neighbor-to-neighbor的通信。连续状态与动作空间，使用线性函数近似时具有收敛性保证。解决巨大甚至连续的状态动作空间的常用算法是AC，技术核心是随机策略梯度SPG，但是梯度估计的方差很大，特别是连续动作空间。于是有了确定性策略梯度DPG以及对应的AC算法，专门针...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。