考虑状态不稳定的鲁棒多智能体强化学习
ROBUST MULTI-AGENT REINFORCEMENT LEARNING CONSIDERING STATE UNCERTAINTIES
摘要
在现实世界的多智能体强化学习(MARL)应用中,智能体可能没有完美的状态信息(例如,由于测量不准确或恶意攻击),这对智能体策略的稳健性提出了挑战。尽管鲁棒性在 MARL 部署中变得越来越重要,但之前很少有工作研究 MARL 中的状态不确定性,无论是问题表述还是算法设计。受这个鲁棒性问题的启发,我们在这项工作中研究了具有状态不确定性的 MARL 问题。我们首次尝试对这一具有挑战性的问题进行理论和实证分析。我们首先将问题建模为具有状态扰动对手的马尔可夫博弈(MG-SPA),并引入鲁棒均衡作为解决方案概念。我们对 MG-SPA 进行了基本面分析,并给出了这种均衡存在的条件。然后,我们提出了一种鲁棒的多智能体 Q 学习(RMAQ)算法来找到这样的平衡,并保证收敛。为了处理高维状态-动作空间,我们基于论文中导出的策略梯度的分析表达式,设计了一种鲁棒的多智能体行动评论家(RMAAC)算法。我们的实验表明,所提出的RMAQ算法收敛到最优值函数;我们的 RMAAC 算法优于几种不考虑多个多智能体环境中状态不确定性的 MARL 方法。
贡献
首次尝试系统地描述MARL中状态的不确定性并提供理论和实证分析。将具有状态不确定性的MARL问题表述为具有状态扰动对手的马尔可夫博弈,博弈的解决方案定义为鲁棒均衡,其中包括代理和对手在内的所有参与者都使用没有人有动机偏离的政策。在 MG-SPA 中,每个智能体不仅旨在考虑其他智能体的行为时最大化其回报,而且还需要针对所有状态扰动对手采取行动。因此,一个主体的稳健均衡政策对于状态不确定性是稳健的。其次,我们研究其基本性质并证明在一定条件下存在鲁棒均衡。我们开发了具有收敛保证的鲁棒多智能体 Q 学习 (RMAQ) 算法,以及用于在 MG-SPA 中计算鲁棒均衡策略的行动者批评家 (RMAAC) 算法。最后,我们在两人博弈中进行实验来验证所提出的 Q 学习方法 RMAQ 的收敛性。我们表明,我们的 RMAQ 和 RMAAC 算法可以学习稳健的策略,在多智能体环境中的状态扰动下,其性能优于基线。
介绍
这篇论文研究了多智能体强化学习(MARL)在状态不确定性下的鲁棒性问题。论文中提出了一个新的理论框架,称为MG-SPA(Markov Game with State Perturbation Adversaries),并介绍了一个鲁棒均衡(Robust Equilibrium)的概念。文章主要贡献包括提出鲁棒多智能体Q学习(RMAQ)算法和鲁棒多智能体演员-评论家(RMAAC)算法,并通过实验验证了这些算法的有效性。
方法介绍
单智能体强化学习
强化学习系统主要包括以下几个组成部分:
- 环境(Environment):智能体所处的外部环境。
- 状态(State, s):描述智能体在某一时刻的情况。
- 动作(Action, a):智能体在某一状态下可以采取的行动。
- 奖励(Reward, r):智能体采取某个动作后环境反馈的奖励值。
- 策略(Policy, π):智能体选择动作的规则或方法。
- 价值函数(Value Function, V):表示在某状态下预期的长期累积奖励。
- 状态-动作价值函数(State-Action Value Function, Q):表示在某状态下采取某动作后预期的长期累积奖励。
强化学习的目标是找到一种策略,使得在与环境长期交互中获得的累积奖励最大化。
多智能体强化学习(MARL)
多智能体强化学习涉及多个智能体相互作用,每个智能体都试图最大化自己的长期累积奖励。MARL的问题更加复杂,因为每个智能体的动作不仅影响自己的回报,还会影响其他智能体的回报。
状态不确定性
在实际应用中,智能体可能无法获得精确的状态信息,这种不确定性可能由于传感器测量误差、噪声、缺失信息或恶意攻击造成。这种状态不确定性会挑战智能体策略的鲁棒性。
MG-SPA模型
MG-SPA(Markov Game with State Perturbation Adversaries)模型引入了状态扰动对手,每个对手试图干扰智能体对真实状态的感知。每个智能体和对应的状态扰动对手之间存在博弈关系,智能体试图最大化自己的累积回报,而对手则试图最小化智能体的累积回报。
鲁棒均衡(Robust Equilibrium)
鲁棒均衡是指在MG-SPA模型中,所有智能体和对手都采用一种策略,使得任何一方都没有动机偏离该策略。在这种均衡状态下,智能体的策略对状态不确定性具有鲁棒性。
RMAQ算法
在多智能体强化学习(MARL)中,智能体之间的交互以及来自环境的动态变化,使得问题变得更加复杂。特别是在面对状态不确定性时,传统的Q-learning算法无法有效应对。为了提高算法在面对状态不确定性时的鲁棒性,作者提出了RMAQ算法。鲁棒多智能体Q学习(RMAQ)算法是一种基于值迭代的方法,用于找到MG-SPA模型中的鲁棒均衡。其基本步骤如下:
- 初始化Q值函数。
- 智能体观察当前状态,并选择动作。
- 对手选择扰动动作,影响智能体的状态感知。
- 智能体根据扰动后的状态执行动作,并观察下一个状态和奖励。
- 根据Bellman方程更新Q值。
- 重复以上步骤,直到Q值收敛。
适合低维、离散状态-动作空间的场景,适合问题规模较小的情况
RMAQ算法旨在解决状态不确定性问题,通过引入状态扰动对手,模拟最坏情况下的状态变化,确保智能体在这种最坏情况下仍能找到最优策略。具体目标包括:
- 寻找鲁棒均衡(Robust Equilibrium),即智能体和对手之间的博弈平衡点。
- 保证在状态不确定性下,智能体的Q值函数能够收敛到最优值。
鲁棒性 :考虑状态扰动对手的存在,每个状态都可以被扰动,算法在这样的扰动下寻找鲁棒均衡(Robust Equilibrium)。
更新公式:
q t + 1 ( s , a , b ) = ( 1 − α t ) q t ( s , a , b ) + α t [ r ( s , a , b ) + γ ∑ s ′ P ( s ′ ∣ s , a , b ) max π min ρ E [ q t ( s ′ , π , ρ ) ] ] q_{t+1}(s,a,b)=(1-\alpha_t)q_t(s,a,b)+\alpha_t\left[r(s,a,b)+\gamma\sum_{s'}P(s'|s,a,b)\max_{\pi}\min_{\rho}E[q_t(s',\pi,\rho)]\right] qt+1(s,a,b)=(1−αt)qt(s,a,b)+αt[r(s,a,b)+γs′∑P(s′∣s,a,b)πmaxρminE[qt(s′,π,ρ)]]
RMAAC算法
尽管RMAQ算法可以有效解决状态不确定问题,但在高维度-动作空间下,RMAQ算法的计算存储需求显著增加,难以拓展到复杂和大规模问题,于是作者提出了RMAAC算法,以处理高维度和连续状态-动作空间的情况。鲁棒多智能体演员-评论家(RMAAC)算法是一种适用于高维状态-动作空间的问题,结合了策略梯度和值函数逼近方法,通过Actor-Critic框架来寻找最优策略。其基本步骤如下:
- 初始化策略网络和价值网络的参数。
- 智能体观察当前状态,并根据策略网络选择动作。
- 对手选择扰动动作,影响智能体的状态感知。
- 智能体根据扰动后的状态执行动作,并观察下一个状态和奖励。
- 评论家网络根据时间差分误差更新价值网络的参数。
- 根据策略梯度更新策略网络的参数。
- 重复以上步骤,直到策略收敛。
后者适合高维、连续状态-动作空间的场景,能够处理复杂的问题,但实现和训练的复杂度较高。
RMAAC算法旨在解决高维度和连续状态-动作空间下的状态不确定性问题,通过结合策略梯度方法(Actor)和值函数逼近(Critic),提高算法的鲁棒性和计算效率。具体目标包括:
- 通过函数逼近方法,减少计算和存储的需求,适应高维度和连续状态-动作空间。
- 提高策略的鲁棒性,确保在状态不确定性下,智能体仍能找到最优策略。
更新公式:
- 策略梯度policy gradient 更新
∇ θ J ( θ ) = E s ∼ π , b ∼ ρ [ q ( s , a , b ) ∇ θ log π θ ( a ∣ s ) ] \nabla_\theta J(\theta)=E_{s\sim\pi,b\sim\rho}\left[q(s,a,b)\nabla_\theta\log\pi_\theta(a|s)\right] ∇θJ(θ)=Es∼π,b∼ρ[q(s,a,b)∇θlogπθ(a∣s)]
- 评论家critic更新
δ = r ( s , a , b ) + γ E s ′ ∼ P [ v ϕ ( s ′ ) ] − v ϕ ( s ) \delta=r(s,a,b)+\gamma E_{s'\sim P}[v_\phi(s')]-v_\phi(s) δ=r(s,a,b)+γEs′∼P[vϕ(s′)]−vϕ(s)
ϕ ← ϕ + β δ ∇ ϕ v ϕ ( s ) \phi\leftarrow\phi+\beta\delta\nabla_\phi v_\phi(s) ϕ←ϕ+βδ∇ϕvϕ(s)
通过函数逼近的方法,减少了计算和存储的需求,能够扩展到更复杂的场景,但会导致一些训练的不稳定性。
实验结果
论文通过实验验证了RMAQ和RMAAC算法的有效性,结果表明这些算法在面对状态不确定性时能够找到鲁棒的策略,显著优于不考虑状态不确定性的基线方法。
结论
本文提出的MG-SPA模型和相关算法为多智能体强化学习在状态不确定性下的鲁棒性问题提供了新的解决思路和方法。实验结果验证了这些方法的有效性,为实际应用中的多智能体系统提供了重要参考。