多智能体强化学习问题的典型例子

最新推荐文章于 2025-10-30 18:35:43 发布

原创

最新推荐文章于 2025-10-30 18:35:43 发布 · 1.2k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习 #机器学习

本文探讨了多智能体强化学习中的环境非平稳性、维度爆炸和信度分配等挑战，介绍了QMIX和VDN等算法，并以金条搬运和道路驾驶为例，展示了DDPG和MADDPG在解决协作与竞争问题中的应用。

一、多智能体强化学习问题的主要难点

多智能体的强化学习问题是一个具有挑战性的领域，面临着以下主要问题：

（1）环境非平稳性：在多智能体系统中，每个智能体的策略在不断更新，导致系统中的每个智能体所处的环境都是不平稳的。这破坏了将系统建模为马尔可夫过程中的条件，使得独立训练每个智能体的方法在复杂的场景下可能难以收敛。

（2）维度爆炸：如果将整个多智能体系统看作一个整体，进行集中学习，包括集中学习环境状态、所有智能体动作之间的映射，虽然消除了环境不平稳的问题，但随之带来了状态、动作空间的维度爆炸，尤其是当智能体数量增加时，可能导致智能体没法学到策略，扩展性太差。

（3）信度分配：一个智能体的奖励不仅由其自身的行为决定，还可能受到其他智能体行为的影响，因此在多智能体系统中，信度分配成为一个重要问题。

为解决这些问题，研究者们提出了一些多智能体强化学习算法，如QMIX、VDN等，这些算法结合了完全独立学习和完全集中学习的优点。此外，还有一些研究者提出了采用集中训练、分散执行的框架，训练时允许策略适用额外的信息，这些信息在测试时不会被用到。训练完成后，分散执行，智能体仅使用自身的信息。这种方法适用于合作和竞争的环境。

二、多智能体强化学习的典型例子

多智能体强化学习的典型的例子包括：

（1）两个智能体将金条搬运回家的例子。在这里，我们称两个智能体为小红和小蓝。

（2）道路驾驶的例子。假设你开车行驶在高速上，那么你不仅仅需要控制车辆使自身保持在车道线内，也需要和同车道上的其他车辆形成合作的关系。例如，如果前车减速，那么你也要相应地减速以保持一百米的安全车距；与此同时，前车也要防止急刹车一类的动作，从而防止后车追尾。

以前者为例，我们可以梳理下其算法流程。多智能体强化学习可以

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Older司机渣渣威 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。