多智能体强化学习算法【二】【MADDPG、QMIX、MAPPO】

最新推荐文章于 2024-06-21 16:07:05 发布

汀、人工智能

最新推荐文章于 2024-06-21 16:07:05 发布

阅读量3.9k

点赞数 18

分类专栏：强化学习（原理+项目实战）大合集 # 强化学习多智能体原理+项目实战文章标签：机器学习人工智能深度学习 MADDPG

涉及博主原创类文章，未经博主许可不允许转载

本文链接：https://blog.csdn.net/sinat_39620217/article/details/117595322

版权

强化学习（原理+项目实战）大合集同时被 2 个专栏收录

48 篇文章 91 订阅 ¥49.90 ¥99.00

订阅专栏

强化学习多智能体原理+项目实战

23 篇文章 51 订阅 ¥39.90 ¥99.00

订阅专栏

相关文章：

常见多智能体强化学习仿真环境介绍【一】｛推荐收藏，真的牛｝

多智能体强化学习算法【一】【MAPPO、MADDPG、QMIX】

多智能体强化学习算法【二】【MADDPG、QMIX、MAPPO】

多智能体强化学习算法【三】【QMIX、MADDPG、MAPPO】

1. MADDPG

1.1 MADDPG简介

本章介绍OpenAI 2017发表在NIPS 上的一篇文章，《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》。主要是将AC算法进行了一系列改进，使其能够适用于传统RL算法无法处理的复杂多智能体场景。

传统RL算法面临的一个主要问题是由于每个智能体都是在不断学习改进其策略，因此从每一个智能体的角度看，环境是一个动态不稳定的，这不符合传统RL收敛条件。并且在一定程度上，无法通过仅仅改变智能体自身的策略来适应动态不稳定的环境。由于环境的不稳定，将无法直接使用之前的经验回放等DQN的关键技巧。policy gradient算法会由于智能体数量的变多使得本就有的方差大的问题加剧。

了解本专栏

汀、人工智能

关注

18
点赞
踩
35

收藏

觉得还不错? 一键收藏
打赏
28
评论
多智能体强化学习算法【二】【MADDPG、QMIX、MAPPO】

一、引言本章介绍OpenAI 2017发表在NIPS 上的一篇文章，《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》。主要是将AC算法进行了一系列改进，使其能够适用于传统RL算法无法处理的复杂多智能体场景。传统RL算法面临的一个主要问题是由于每个智能体都是在不断学习改进其策略，因此从每一个智能体的角度看，环境是一个动态不稳定的，这不符合传统RL收敛条件。并且在一定程度上，无法通过仅仅改变智能体自身的策略
复制链接

扫一扫

专栏目录

评论 28

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

汀、人工智能 十分感谢您的支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。