一、多智能体强化学习问题的主要难点
多智能体的强化学习问题是一个具有挑战性的领域,面临着以下主要问题:
(1)环境非平稳性:在多智能体系统中,每个智能体的策略在不断更新,导致系统中的每个智能体所处的环境都是不平稳的。这破坏了将系统建模为马尔可夫过程中的条件,使得独立训练每个智能体的方法在复杂的场景下可能难以收敛。
(2)维度爆炸:如果将整个多智能体系统看作一个整体,进行集中学习,包括集中学习环境状态、所有智能体动作之间的映射,虽然消除了环境不平稳的问题,但随之带来了状态、动作空间的维度爆炸,尤其是当智能体数量增加时,可能导致智能体没法学到策略,扩展性太差。
(3)信度分配:一个智能体的奖励不仅由其自身的行为决定,还可能受到其他智能体行为的影响,因此在多智能体系统中,信度分配成为一个重要问题。
为解决这些问题,研究者们提出了一些多智能体强化学习算法,如QMIX、VDN等,这些算法结合了完全独立学习和完全集中学习的优点。此外,还有一些研究者提出了采用集中训练、分散执行的框架,训练时允许策略适用额外的信息,这些信息在测试时不会被用到。训练完成后,分散执行,智能体仅使用自身的信息。这种方法适用于合作和竞争的环境。
二、多智能体强化学习的典型例子
多智能体强化学习的典型的例子包括:
(1)两个智能体将金条搬运回家的例子。在这里,我们称两个智能体为小红和小蓝。
(2)道路驾驶的例子。假设你开车行驶在高速上,那么你不仅仅需要控制车辆使自身保持在车道线内,也需要和同车道上的其他车辆形成合作的关系。例如,如果前车减速,那么你也要相应地减速以保持一百米的安全车距;与此同时,前车也要防止急刹车一类的动作,从而防止后车追尾。
以前者为例,我们可以梳理下其算法流程。多智能体强化学习可以

本文探讨了多智能体强化学习中的环境非平稳性、维度爆炸和信度分配等挑战,介绍了QMIX和VDN等算法,并以金条搬运和道路驾驶为例,展示了DDPG和MADDPG在解决协作与竞争问题中的应用。
最低0.47元/天 解锁文章
1143

被折叠的 条评论
为什么被折叠?



