学习情况:
🌱 主要看了论文 MATRPO (HATRPO),这篇博客是笔记。其它地,最近简单看了下 GAE 和 Variance of MAPG 两篇,没做笔记
🌱 MATRPO 逻辑很清晰,理论推导做得很扎实,附录的公式推导近10页。其code
🌱 作者写了 论文解析blog,核心点解释得蛮清晰,不涉及复杂的数学推导。认真读下其blog就能懂个大概,再重读论文便轻松了
🌱 全文共7k字,纯手敲。含大量手写笔记,含大量个人主观理解。较于前两篇学习blog,这篇中的原文引用和英文笔记偏多些。如有错误,欢迎指正
🌱 前序文章1:强化学习入门笔记 | UCL silver RL | UC Berkely cs285 DRL
🌱 前序文章2:强化学习 | 策略梯度 | Natural PG | TRPO | PPO
🌱 此篇文章3:强化学习 | Multi Agents | Trust Region | HATRPO | HAPPO
🌱 后序文章4:强化学习 | Mirror Learning
目录:
🌴 Trust Region in Single Agent
🌴 Trust Region in Multi Agents
🌻 论文概述
2022 - Kuba - Multi-Agent Constrained Policy Optimisation
该论文将 trust region learning 推广至了MARL (multi-agent reinforcement learning):
其提出并证明了multi-agent advantage decomposition lemma,并基于此提出了多智能体的 sequential policy update scheme (update the policy of agent one by one)
而后,基于单智能体上的TRPO和PPO算法,基于新颖的多智能体策略更新方案,作者构建了针对多智能体的trust region算法:HATRPO (Heterogenous-Agent Trust Region Policy Optimisation) 和 HAPPO (Heterogeneous-Agent Proximal Policy Optimisation)
作者证明了该算法的单调改进性 (monotonic improvement)。且该算法 no parameters sharing,也 no any restrictive assumptions on decomposibility of the joint value function.
关于homogenous (同质的) 和heterogenous (异质的):
- Homogenous, sharing the same action space and policy parameters, which largely limits their applicability and harm the performance
- heterogenous, not need agents to share parameters, having their own action space
对比这两个词,再理解下HATRPO (H -> heterogenous) 的含义。将借由顺次更新各个智能体的策略实现这一设想
那么 homogenous,参数共享有什么缺点吗?
其实将 trust region learning 从 single-agent 推广到 MARL 已经有了一些先例,比如 MAPPO。但是它的推广方式十分简单,"equip all agents with one shared set of parameters and use agents' aggregated trajectories to conduct policy optimisation at every iteration"。它学习一个基于global state的centralized value function和一个 sharing policy(各个agent通过局部观测和共享策略做动作),而且并不能从理论上保证单调递增
那么MARL中参数共享 (共享策略空间)可能导致什么问题呢?
看一个例子,
证明如下(通过举反例证明还蛮有意思的;这个证明过程比较好懂):
则在这个例子中,parameter sharing can lead to a suboptimal outcome that is exponentially-worse with the increasing number of agents.
该算法在 SMAC task 和 MuJoCo task 上为SOTA
还是那个学习顺序,建议先读透Natural PG,再看TRPO。有了TRPO的基础看PPO会很容易。然后再看这篇HATRPO、HAPPO。
这个推进关系上,每个算法都做了改进和变动,如果略过中间一环或者略过一环的某个推导过程,接下来的算法可能真的吃不透。例如,TRPO中并没有那么细致地讲NPG的推导过程;PPO虽延续了TRPO的思想,但是不再复述TRPO中步步推导的目标函数,而是直接讲其改进了。初学者学习trust region PG时,最好从地基起。
🌻 符号定义
🌴 MARL基本符号

作者新引入两个定义:Multi-agent Q-value Function 和 Multi-agent Advantage Function
🌴 Q-value Function
The multi-agent state-action value function Q for an arbitrary ordered agent subset is defined as
where refers to its complement and
refers to the
agent in the ordered subset.
complement应该翻译成补集吧,
应该是指除了这1:m个agents外的agents,即
直观理解下,

本文深入探讨了多智能体强化学习(MARL)中的信任区域策略优化,重点介绍了HATRPO(异质型智能体信任区域策略优化)和HAPPO算法。作者首先阐述了MATRPO论文的逻辑和理论基础,包括多智能体Q值函数和优势函数的定义,以及多智能体优势分解定理。接着,详细分析了单智能体与多智能体信任区域学习的差异,并提出了多智能体的顺序策略更新方案。HATRPO和HAPPO分别基于TRPO和PPO进行改进,适用于不共享参数的多智能体设置。实验表明,这两种算法在SMAC和Multi-AgentMuJoCo任务上表现出色,尤其是在复杂任务中,非参数共享的优势更为明显。


最低0.47元/天 解锁文章
3095

被折叠的 条评论
为什么被折叠?



