多智能体强化学习--理论与算法


参考博士论文:基于强化学习的多智能体协同关键技术及应用研究

基础概念

在单个智能体与部分可观测环境的交互过程一般使用部分可观测马尔可夫决策过程(partial observable MDP,POMDP)133][134][13]进行建模,其挑战来自部分观测难以恢复环境实际所处的马尔可夫状态,而马尔可夫性是强化学习的关键假设。在多智能体问题中,如果每个智能体观测到环境的局部信息,并且根据局部信息进行决策,这类问题称为去中心化POMDP问题(decentralized POMDP, Dec-POMDP)[136][137][138]。

训练阶段能够使用全局状态信息,而执行阶段各智能体仅仅使用自身的局部观测进行决策,称为“集中式训练分布式执行”(关于为什么采取这种方式,知乎一个很好的回答:知乎

MADDPG的actor和critic网络

actor网络:

  • MADDPG中的actor网络旨在为每个智能体生成确定性策略,即给定一个状态,智能体将输出一个具体的动作。
  • 每个智能体的actor网络仅根据其局部观测来决定动作,但在训练过程中,这些网络会考虑到所有智能体的状态信息。
  • actor网络的输出是动作,这些动作是基于确定性策略的,这意味着在给定相同状态的情况下,每次都会产生相同的动作。

critic网络:

  • critic网络在MADDPG中用于评估给定的状态-动作对的价值。
  • 它需要全局信息,即所有智能体的状态和动作,以便能够评估联合动作的价值。
  • critic网络通常采用Q-learning的思想,学习预测状态-动作值函数(Q值),这有助于指导actor网络的训练。

特点:

  • MADDPG使用的是确定性策略梯度(DPG)方法,这意味着它倾向于产生平滑且可预测的动作。
  • 它采用集中式训练和分布式执行的方式:在训练时,所有智能体的信息被用来训练每个智能体的critic网络,但在实际执行时,每个智能体仅使用自己的观测来选择动作。

MAPPO的actor和critic网络

(代码详解请看博客:博客链接

actor网络:

  • MAPPO中的actor网络输出的是动作的概率分布,而不是像MADDPG那样的确定性动作。
  • 它基于Proximal Policy Optimization(PPO)算法,使用随机策略来探索环境。
  • 每个智能体的actor网络同样根据局部观测来决定动作概率分布,但在训练时,它也考虑到了其他智能体的行为。

critic网络:

  • critic网络在MAPPO中用于评估状态值函数,即预测在特定状态下智能体能够获得的期望回报。
  • 与MADDPG的critic类似,它也需要全局信息来评估状态的价值。
  • MAPPO的critic通常使用优势函数来指导actor网络的更新,优势函数表示智能体采取特定动作相对于平均动作的优劣。
    特点:
  1. MAPPO使用的是概率性策略,允许算法在探索和利用之间进行权衡。
  2. 它同样采用集中式训练和分布式执行的方式,但在策略更新上,它使用了一种更加稳定和高效的策略优化方法。

总的来说,MADDPG和MAPPO在actor和critic网络设计上的主要区别在于:

  • MADDPG的actor输出确定性动作,而MAPPO的actor输出动作的概率分布。
  • 两者都使用全局信息来训练critic网络,但MAPPO的更新策略更加稳定,适用于更广泛的场景。
  • MADDPG倾向于在需要平滑动作控制的场景中使用,而MAPPO由于采用了概率策略,更适用于需要平衡探索和利用的场景。

QMix (QMIX)

QMix是一种基于值分解的多智能体强化学习算法,适用于需要智能体之间高度协调的合作环境。它通过将每个智能体的局部Q值函数与一个混合函数相结合,来学习全局Q值函数。

VDN (Value Decomposition Networks)

VDN是QMix的前身,通过分解全局值函数为每个智能体的局部值函数来处理多智能体环境。它在某些情况下可能不如QMix表现好,但结构更简单,易于理解。

MADDPG (Multi-Agent Deep Deterministic Policy Gradient)。MADDPG是DDPG算法在多智能体环境中的扩展,适用于连续动作空间。它在多个智能体系统中表现出色,尤其在智能体需要独立学习策略的场景中。

MAPPO (Multi-Agent Proximal Policy Optimization)MAPPO是基于PPO算法的多智能体版本,适用于离散和连续动作空间,策略优化稳定。它在需要智能体之间协作和竞争的复杂环境中表现良好。

COMA (Counterfactual Multi-Agent Policy Gradients)COMA是一种考虑了其他智能体行为的策略梯度方法,通过计算反事实的奖励来估计每个智能体的贡献。它特别适用于需要智能体之间相互依赖和协作的环境。

  • 17
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值