多智能体强化学习面临的挑战:
1. 环境不稳定性的挑战
在多智能体系统中,站在每个智能体的角度,它的环境中包含了其他智能体。在学习过程中,每个智能体的策略在不断更新,这样导致了系统中的每个智能体所处的环境都是不平稳的,这就导致了建模为马尔可夫过程中的条件被破坏,因此,独立训练每个智能体的方法在复杂的场景下可能会难以收敛。
2. 维度爆炸
如果将整个多智能体系统看作一个整体,进行集中学习,包括集中学习环境状态,所有智能体动作之间的映射,这样消除了环境不平稳的问题,但是随之带来了状态,动作空间的维度爆炸,尤其是当智能体数量增加时,导致智能体没法学到策略,扩展性太差。
多智能体强化学习算法:
面对以上问题,需要一种结合完全独立学习和完全集中学习的多智能体强化学习算法。
1.智能体之间进行合作
1)参数共享(parameter sharing):参数共享被用在独立学习的训练过程中,缓解非平稳性的影响,这已经是很多方法的默认设定。
2)CTDE(Centralized Training with Decentralized Execution),训练时拥有上帝视角,提高学习效率,执行时各自独立决策,代表算法有MADDPG,COMA。但是,随着智能体数量增加,最优联合值分解复杂。随之从值分解数出发的算法有QMIX,VDN等。
2.智能体交互寻求更好的策略
这类算法在独立学习或者CTDE这类算法的基础上,通过更好的表示智能体之间的信息交互,从而缓解环境不平稳的问题,提高算法效率。代表算法有MAAC,DGN