MADDPG分析及其更新策略见解

最新推荐文章于 2025-03-11 21:20:07 发布

iπ弟弟

最新推荐文章于 2025-03-11 21:20:07 发布

阅读量9.2k

点赞数 14

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43145941/article/details/112726116

版权

强化学习专栏收录该内容

19 篇文章 ¥19.90 ¥99.00

订阅专栏

本文介绍了多智能体深度确定性策略梯度（MADDPG）算法，作为DDPG在多智能体环境中的扩展，其核心思想是通过增强critic网络的输入信息来改善决策。MADDPG的特点是分布式的actor和集中式的critic，允许更好地处理多智能体环境中的交互。文章讨论了MADDPG的更新策略，以及在实践中加速收敛的技巧，并指出其在智能体数量增加时面临的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引子

深度强化学习可以分为两类：单智能体算法和多智能体算法，单智能体算法从DQN开始有policy gradient、actor critic、dpg、ppo、ddpg、sac等等，它们解决的是环境中存在一个智能体的情况（或者是多个智能体可以转化为一个智能体决策的情况），但是在某些环境（environment）下，似乎单智能体算法就有些心有余而力不足，例如足球比赛亦或是追逐游戏。如果依旧对每个agent采用单智能体算法会出现如下情况：在第 $i$ 个agent做出动作

了解本专栏

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

iπ弟弟 如果可以的话，请杯咖啡吧！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。