Networked Multi-Agent Reinforcement Learning in Continuous Spaces 笔记

文章目录

前言

针对多智能体协作场景,通过一个可能随时间变化的通讯网络交换信息,提出完全分布式ac算法,只依赖于neighbor-to-neighbor的通信。连续状态与动作空间,使用线性函数近似时具有收敛性保证。
解决巨大甚至连续的状态动作空间的常用算法是AC,技术核心是随机策略梯度SPG,但是梯度估计的方差很大,特别是连续动作空间。于是有了确定性策略梯度DPG以及对应的AC算法,专门针对连续动作空间设计。然而这需要off-policy的探索。作者的分布式MARL设置中,学习时agent不知道其他agent的策略。连续动作空间on-policy的AC算法借助期望策略梯度EPG。
作者针对完全分布式连续状态动作空间的MARL场景,1)将EPG的形式扩展到MARL;2)提出一个完全分布式的AC算法,只依赖neighbor-to-neighbor的通信;3)当使用线性函数近似时,有收敛性保证。这是第一个联系分布式架构与MARL的尝试,分布式指独立的MDP,MARL不是。
Networked multi-agent Markov decision process有一个随时间变化的无向通讯图。每个agent都能看到全局状态 s t s_t st,然后各自执行动作得到联合动作 a t a_t at,每个agent收到的reward不同,但是都是关于 s

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值