多智能体强化学习笔记

参考资料

在这里插入图片描述
多目标包含安全强化学习(建模为Constrained MDP)
风险感知应该是指奖励的方差不要太大

T. Li et al., “Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey,” in IEEE Communications Surveys & Tutorials, vol. 24, no. 2, pp. 1240-1279, Secondquarter 2022, doi: 10.1109/COMST.2022.3160697.
Li, T., Zhu, K., Luong, N. C., Niyato, D., Wu, Q., Zhang, Y., & Chen, B.
南京航空航天大学

在这里插入图片描述
A SUMMARY OF MARL ALGORITHMS BASED ON INFORMATION SHARING

多智能体强化学习(multi-agent reinforcement learning,MARL)

单智能体强化学习算法的基本假设:动态环境是稳态的(stationary),即状态转移概率和奖励函数不变。

多智能体强化学习要比单智能体更困难:

  1. 在每个智能体的视角下,环境是非稳态的(non-stationary),即对于一个智能体而言,即使在相同的状态下采取相同的动作,得到的状态转移和奖励信号的分布可能在不断改变;
  2. 多个智能体的训练可能是多目标的,不同智能体需要最大化自己的利益;
  3. 训练评估的复杂度会增加,可能需要大规模分布式训练来提高效率。

独立学习(independent learning):完全去中心化的算法
独立 PPO(Independent PPO,IPPO)算法

中心化训练去中心化执行(centralized training with decentralized execution,CTDE)

中心化训练:在训练的时候使用一些单个智能体看不到的全局信息而以达到更好的训练效果
去中心化执行:在执行时不使用这些信息,每个智能体完全根据自己的策略直接动作。
优点:能够在训练时有效地利用全局信息以达到更好且更稳定的训练效果,同时在进行策略模型推断时可以仅利用局部信息,使得算法具有一定的扩展性。

CTDE 算法主要分为两种:
基于值函数的方法:VDN,QMIX 算法等
基于 Actor-Critic 的方法:MADDPG 和 COMA 等

多智能体 DDPG(muli-agent DDPG,MADDPG)

每个智能体实现一个 DDPG 的算法。
所有智能体共享一个中心化的 Critic 网络,该 Critic 网络在训练的过程中同时对每个智能体的 Actor 网络给出指导,而执行时每个智能体的 Actor 网络则是完全独立做出行动,即去中心化地执行。
MADDPG

  • 21
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zzz的学习笔记本

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值