MADRL(多智能体深度强化学习)
《多Agent深度强化学习综述》
从多 agent 深度强化学习中通信过程的角度对现有的多 agent 深度强化学习算法进行归纳,将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策三种主流形式。
当前 DRL 的两个主要方向 – 深度 Q 网络和深度策略梯度。一种是用神经网络函数近似Q网络,另一种是将状态空间映射到动作空间的函数或者分布,策略优化的目标是寻找最优的策略映射。
两者针对的过程不同
连续动作空间的策略梯度算法分为随机策略梯度算法和深度确定策略梯度算法。
多智能体任务中环境是动态性的,一般建模为部分可观测MDP环境(POMDP)
协作多智能体分为两类,单个学习者和多个学习者。
全通信集中决策:联合感知,中心决策(神经网络内部通信)
全通信自主决策:联合感知,独立决策(神经网络之前通信)
欠通信自主决策:无信息交互,独立决策(一般用循环神经网络)
全通信集中决策可转换为单智能体问题,适用于智能体数量少且固定,动作空间小的情况。
在全通信集中决策架构中,现有研究方法主要集中在隐藏层信息池化共享通信和双向 RNN 通信等两种手段,通过神经网络的隐藏层间信息传递保证全通信条件下 agent 间的协商。
难以设计合适的通信协议——>利用双向LSTM自行学习通信协议
不合适的奖励——>基于全局奖赏的值分解网络
主-从多智能体架构(教练和球员)
全通信自主决策架构只需在输入端进行通信,将信息进行本地融合,自主的完成决策过程。
一种方式是自适应的端到端的通信协议学习算法,将通信定义为一组动作。根据通信动作的连续性,将决策网络的梯度更新方式分为增强和可微两类。
针对全通信的自主决策结构,他们设计了 AC-CNet 架构,对局部状态进行嵌入编码,之后利用预定义/自学习通信协议对所有局部状态编码进行联合编码,同待决策 agent 的局部状态结合一同作为决策输入,产生动作。
预定义通信协议在部分环境中不可用——>将通信定义为一组动作
对局部状态进行嵌入编码
个体奖赏带来的 “囚徒困境”——>采用联合动作评估方法
欠通信自主决策中强化学习任务面临着环境非平稳性的问题。
解决方法一:忽略。采用分散滞后深度 RNN 的架构,克服环境非平稳带来的值估计偏差。
解决方法二:改进replaybuffer。记录其余agent的动态变化信息。
解决方法三:自主决策,整体评价。
解决方法四:分层,将 agent 的动作分为宏观和一般两类动作
解决方法五:对对手(包括己方其他)进行建模
解决方法六:改进信用分配方式
解决方法七:同质智能体共享参数
多智能体实验平台:
1 DeepMind 和暴雪公司合作,开发了一个基于星际争霸 II 游戏的强化学习平台 SC2LE
python接口、minigame
2 上海交通大学开发了一种支持多 agent 强化学习研究和发展的 MAgent 平台该平台聚焦含成千上万 agent 的任务和应用
开源:https://github.com/geek-ai/MAgent
3 Brodeur 等人 [79] 提出了一个面向人工 agent的家庭多模态环 境(HoME),在逼真的环境下,从视觉、音频、语义、物理以及与对象和其他 agent的交互等方面进行学习.
HoME 侧重于室内 3D环境下的图像研究,利用该平台进行多 agent 研究的学者较少.
4 Facebook AI 研究室提出一个面向 RTS游戏的广泛的、轻量级和灵活的多 Agent 强化学习平台 ELF.
C/C++ python 该平台主要为两人对战
关键问题及展望:
如何构建合适的模型能够更加准确的描述 MAS
总体样本数量依然有限,数据效率低
DRL 训练通常面临着对环境过拟合的问题,而 MADRL 则面临着对对手和环境的双重过拟合问题
1 多 agent 训练要素研究
对抗学习架构(alphazero)
将 DRL 策略和实证博弈论分析进行混合,计算策略选择的元策略
2 样本增强技术研究
增强生成对抗网络利用状态 - 行为与后继状态 - 奖赏之间的关系提高由 GAN 生成的样本的质量
将基于模型的和无模型的方法结合。
在 DRL 研究中,无模型方法数据利用低效,仅仅使用了转移中的奖赏信号,忽视了样本的转移过程;基于模型的方法有较高的数据效率