[翻译]一种基于学习的脉冲机动轨道追逃博弈的高效算法
PRD-MADDPG: An Efficient Learning-Based Algorithm for Orbital Pursuit-Evasion Game with Impulsive Maneuvers
摘要: 本文利用基于人工智能的方法全面研究了脉冲轨道追逃博弈(Orbital Pursuit-Evasion Games, OPEGs)的问题。首先,构建了追逐者和逃避者都通过施加脉冲速度增量来执行轨道机动的脉冲OPEG数学模型。其次,将脉冲OPEG问题转化为在终端时间方面具有最小-最大优化指数和机动性、总燃料消耗、任务时间等多重约束的双边优化问题。为了确定双方的最优脉冲动作,在多智能体强化学习框架中设计了一种PRD-MADDPG(预测-奖励-检测多智能体深度确定性策略梯度)算法。该算法利用基础MADDPG实现策略训练和学习,并应用补充PRD预测两个相邻脉冲动作间隔期间博弈状态的变化,并将这些信息以预测奖励的形式纳入算法训练中。最后,对地球同步轨道附近的一些追逃任务进行了数值分析,验证了该算法的有效性。结果表明,即使考虑相当复杂的约束,PRD-MADDPG算法也能非常有效地找到适用的策略。研究还表明,基于学习的策略可以有效地应用于训练过程中看不到的扩展场景。
创新点
- 构建了脉冲轨道追逃博弈(OPEG)的多约束模型。
- 设计了一种基于学习的脉冲OPEG算法(即PRD-MADDPG)。
- 建立了预测-奖励-检测(PRD)训练框架,改进MADDPG。
- PRD-MADDPG在脉冲OPEG中的表现优于传统MADDPG。
- 分析了多因素作用下双方的获胜机制。
1. 引言
轨道追逃博弈用于描述一种对抗性或非合作性轨道运动场景,其中追逐者试图捕获或会合逃避者,而逃避者则试图避免被捕获或会合(Zhao 等人,2021 年)。自1960年代以来,对OPEG的研究一直受到学者的广泛关注(Billik,1964,Wong,1967,Woodward,1972)。第一个OPEG问题于1964年研究。当Billik研究低加速度会合问题时,使用微分博弈论讨论并解决了考虑目标非合作行为的扩展案例(Billik,1964)。然后,Wong(1967)研究了在面内运动和恒定引力场的假设下,追逐拦截器用机动卫星拦截的问题,并用微分博弈论解决了这个问题。后来,伍德沃德(Woodward,1972)在他的硕士论文中利用微分博弈论研究了为在近地轨道上从事追逐和规避的两个恒定质量和恒定推力航天器开发最佳推力角程序的问题。
前面提到的微分博弈论其实是Isaacs(1954)更早提出的,在过去的几十年里,它已经成为解决OPEGs问题的有效方法(Ho et al., 1965)。通过使用汉密尔顿-雅可比-贝尔曼方程,微分博弈论通常将OPEGs问题转换为两点边界值问题(TPBVP)。Menon和Calise (1988)和Menon and Duke (1992)利用微分博弈和最优控制理论定性分析了航天器的追逐边界门,但该方法难以求解汉密尔顿-雅可比方程。为了求解微分博弈的TPBVP,通常采用多目标遗传算法估计初始值,然后结合多射击法优化解(秋华等,2014),但该方法的计算消耗相对较高。为了得到OPEG问题的鞍点平衡解,Pontani和Conway(2009)提出了一种半直接配置非线性规划方法,该方法需要遗传算法进行初步猜测以进一步获得近似解。然后受到比例导航的启发,Carr等人(2018)提出了一种替代方法,用于生成半直接配置非线性规划方法所需的初始猜测。
上述研究中使用的这些传统方法通常需要几秒钟或几十秒才能获得数值解,甚至可能导致进一步的收敛问题(Zhang等人,2022b)。这是因为在OPEG问题中考虑轨道动力学给计算带来了额外的复杂性。此外,上述任何一种传统方法所获得的控制策略的适应性都不够,单一的控制策略实际上无法应用于不同的博弈场景,说明当OPEG问题的初始状态和约束发生变化时,必须重新计算控制动作。因此,这些传统方法无法满足OPEG实际任务中的实时性要求。
OPEG问题模型得到了进一步分析。由于微分博弈论更适合于连续控制系统,目前对OPEG问题的研究大多基于连续控制模型,大致可分为以下两种。第一种类型是假设航天器的推力大小是恒定的,并且通过不断调整推力的输出方向来实现轨道机动(Billik,1964,Qichang和Zhang,2019)。第二种类型假设航天器可以通过连续控制推力大小和方向来实现轨道机动(Li 等人,2021 年,Jagat 和 Sinclair,2017 年)。连续推力的输出通常很小,可能无法应用于快速但不合作的轨道机动。然而,输出比较大的脉冲推力可能更适合远距离交会场景下的追逃任务。因此,一些学者已经意识到这个问题,并开始探索脉冲的OPEG问题。
所谓的脉冲OPEG是一种OPEG,其中追逐者和逃避者都应用脉冲机动来执行其轨道转移。Venigalla 和 Scheeres(2021)针对航天器之间初始距离较大的脉冲OPEG问题提出了一种基于δ-V的分析方法,并假设航天器采用双脉冲转移。Yang等人(2021)将轨道脉冲追逐-规避任务建模为两阶段博弈问题,其中采用顺序二次规划(SQP)方法将远距离追逐-逃避问题转化为多脉冲会合轨迹优化问题,并应用DDPG算法将近距离追逐-规避问题建模为策略强化学习问题。然而,现有的研究很少从博弈建模的角度考虑航天器脉冲机动的特点。此外,上述研究经常将研究主题限制在特殊的脉冲OPEG任务场景中。因此,如何以更通用的形式对脉冲OPEG问题进行建模仍有待探索和研究。
随着近年来人工智能理论的发展,深度神经网络(DNN)和深度强化学习(DRL)在机器人控制,博弈智能和航天器控制等领域得到广泛应用。因此,一些研究人员尝试使用人工智能方法将OPEG问题转化为学习问题。目前解决这个学习问题主要有两种思路:第一个是将 DNN 和微分博弈论结合起来解决 OPEG 问题(Zhang et al., 2022a)。由于轨道动力学的强非线性,很难在OPEG问题中找到汉密尔顿-雅可比方程的解。因此,一些学者使用 DNN 来拟合方程的解。然而,由于该方法在建模和策略设计中均基于微分博弈论,仅使用深度神经网络来求策略的数值解,因此存在计算效率低、对脉冲OPEG问题适用性差的缺点。另一种是使用 DRL 方法,例如 DQN、演员评论家算法和 DDPG 来解决 OPEG 问题。该方法将 OPEG 建模为马尔可夫决策过程(MDP),并应用反复训练以逐步学习最佳策略。但是,基本的DRL算法是为单个智能体开发的,不太适合至少有两个玩家的OPEG问题。因此,有必要找到一种可以应用于多个玩家博弈的多智能体深度强化学习(MARL)算法。
2017 年,OpenAI 针对多智能体协作和多智能体博弈的场景提出了多智能体深度确定性策略梯度(MADDPG)算法。近年来,MADDPG 算法已成功应用于智能电网、集群通信、路径规划和机器人追逃博弈。MADDPG 算法是一种独立于模型的方法,这意味着环境可以被视为一个黑盒,以响应智能体在训练过程中的动作。在实际应用中,MADDPG算法的训练过程需要与环境进行大量的交互来生成训练样本,这强烈要求将环境视为静态。但由于物理实验难度大、成本高,很多任务场景并不适合在物理环境中直接训练。因此,通过对任务场景进行分析建模来构建相应的虚拟场景是一个很好的解决方案。在无人机,机器人和其他无人系统领域,研究人员创建了算法训练所需的各种虚拟环境,不仅可以降低实验成本,还可以缩短训练时间。
综上所述,在分析了现有的相关研究成果后,可以发现现有的OPEG问题研究存在两个不足。第一个与OPEG的问题建模有关。大多数现有研究假定轨道机动是通过连续的小推力轨迹转移来实现的。然而,在实际的空间任务中,轨道机动也可以通过一系列离散的速度变化来进行,称为由
δ
−
v
\delta-v
δ−v 表示的脉冲速度变化(或增量)。针对这一缺陷,本文创新性地利用相对轨道运动的状态转移矩阵(STM)和双边优化理论,推导了一种可以描述一对卫星在追逃场景中的博弈模型。第二个是关于OPEG的求解方法。OPEG现有的求解方法可分为两类:基于优化的方法和基于人工智能(AI)的方法。自1964年以来,基于优化的方法得到了广泛的研究,但存在计算量大、耗时长、适用性差的缺点。基于AI的方法有望应用于解决脉冲OPEG问题,但具体的探索仍然相当不足。为了缓解这种情况,该文提出PRD-MADDPG算法来解决脉冲OPEG问题。设计 PRD 训练框架和相应的奖励函数设计方法,避免脉冲区间内的信息丢失,降低稀疏奖励的负面影响。此外,针对多重约束(即机动性、终端时间和燃料储备)的问题,本文综合分析了多因素下多因素的影响和博弈的获胜机制。
本文的其余部分组织如下。第2节,利用航天器相对运动动力学和非合作博弈论,构建了多约束脉冲OPEG的问题模型。第3节提出了预测-奖励-检测训练框架来改进MADDPG算法,最终形成一种新的算法,即PRD-MADDPG算法,旨在解决多约束脉冲OPEG问题。第4节介绍了一些使用PRD-MADDPG算法求解具有代表性的多约束脉冲OPEG问题的仿真案例,并将性能与MADDPG算法进行了比较。此外,本节还设计了实验来验证PRD-MADDPG算法在未经训练和未知场景中的适应性。第5节给出了论文的结论。
2. 问题描述
在现有的OPEG问题研究中,人们普遍认为航天器的控制是连续的,但在实际任务中,航天器可能采用脉冲轨道机动,机动性、终端时间和燃料储备都是有限的。因此,首先基于相对轨道动力学和博弈论建立了多约束脉冲OPEG问题模型。
2.1 场景描述
考虑以下两个脉冲推力航天器在机动性、终端时间和燃料储备等约束下的平面OPEG问题。此外,飞船的两次冲动控制之间有一个时间间隔,追逐者和逃避者都会在追逐-逃避博弈中尽快做出决定。脉冲OPEG的过程如图1所示。本文对所研究的问题有三个假设。
假设1: 这两个航天器之间的相对距离远小于轨道半径,满足CW方程条件。
假设2: 脉冲机动的速度增量在机动点瞬间获得。
假设3: 双方的脉冲间隔时间相同且固定。
此外,考虑到实际工程的限制,航天器的机动性和燃料储备有限。因此,本文认为,对于航天器的单个脉冲控制获得的速度增量存在一个上限,称为最大单个
δ
v
\delta v
δv。并且航天器的总燃料储备还有一个上限,称为最大总
δ
v
\delta v
δv。此外,OPEG不能无限期地继续,因此假设任务具有最大终止时间,
t
max
t_{\max}
tmax。
2.2 脉冲轨道机动控制模型
从轨道动力学的角度来看,OPEG是两个航天器之间特殊的相对运动。将逃避者在回合时间的初始轨道定义为参考轨道。采用与参考轨道固连的LVLH坐标系作为描述每个航天器轨道运动的坐标系。利用LVLH坐标系中CW方程的状态转移矩阵,可以建立追逐者或逃避者的脉冲轨道机动模型:
x
⃗
(
t
)
=
Φ
(
t
,
t
0
)
x
⃗
(
t
0
)
+
∑
i
=
1
N
Φ
v
(
t
,
t
i
)
Δ
v
⃗
i
\vec{x}(t)=\Phi(t,t_0)\vec{x}(t_0)+\sum_{i=1}^N\Phi_v(t,t_i)\Delta \vec{v}_i
x(t)=Φ(t,t0)x(t0)+i=1∑NΦv(t,ti)Δvi
其中
x
⃗
(
t
)
\vec{x}(t)
x(t) 是LVLH坐标系中追逐者或逃避者的状态向量,
Δ
v
⃗
i
\Delta \vec{v}_i
Δvi 是第
i
i
i 次脉冲机动的速度增量向量,
t
0
t_0
t0 为任务初始时间,
t
i
t_i
ti 为第
i
i
i 次脉冲机动的时间。本文中,因为所有航天器都会在初始时刻进行机动,所以
t
0
=
t
1
=
0
t_0=t_1=0
t0=t1=0;
Φ
(
t
,
t
i
)
\Phi(t,t_i)
Φ(t,ti) 和
Φ
v
(
t
,
t
i
)
\Phi_v(t,t_i)
Φv(t,ti) 是CW方程的状态转移矩阵,一个给定的表达式如下:
⋯
\cdots
⋯
其中
i
=
1
,
2
,
⋯
,
N
i=1,2,\cdots,N
i=1,2,⋯,N。
多脉冲轨道机动根据脉冲机动顺序可以看作多个阶段。航天器总共执行
N
N
N 次脉冲机动,第
i
i
i 个机动记录为
t
i
t_i
ti,
i
=
1
,
2
,
⋯
,
N
i=1,2,\cdots,N
i=1,2,⋯,N。使用
x
⃗
(
t
i
−
)
\vec{x}(t_i^-)
x(ti−) 和
x
⃗
(
t
i
+
)
\vec{x}(t_i^+)
x(ti+) 分别表示航天器在
t
t
t 时刻进行脉冲控制前后的状态,于是航天器在
t
i
t_i
ti 时刻的变化可以写作
x
⃗
(
t
i
+
)
=
x
⃗
(
t
i
−
)
+
[
0
⃗
2
×
1
Δ
v
⃗
i
]
\vec{x}(t_i^+)=\vec{x}(t_i^-) +\begin{bmatrix}\vec{0}_{2\times 1} \\ \Delta \vec{v}_i\end{bmatrix}
x(ti+)=x(ti−)+[02×1Δvi]
航天器在
t
i
t_i
ti 和
t
i
+
1
t_{i+1}
ti+1 时刻之间无动力滑行,这一过程的状态变化可以通过下式计算
x
⃗
(
t
i
+
1
−
)
=
Φ
(
t
i
+
1
,
t
i
)
x
⃗
(
t
i
+
)
\vec{x}(t_{i+1}^-)=\Phi(t_{i+1},t_i)\vec{x}(t_i^+)
x(ti+1−)=Φ(ti+1,ti)x(ti+)
注释1: 多脉冲轨道机动的控制属于由强化学习中的马尔可夫决策过程(MDP)组成的顺序决策过程。因此,航天器的脉冲轨道机动可以建模为MDP,并进一步使用强化学习算法来训练控制策略。
2.3 脉冲轨道追逃博弈模型
与机器人、UAV和导弹的追逃问题不同,由于轨道动力学和发动机推力的强约束,脉冲OPEG问题有以下5个特点:卫星高速运动,可预测,空间很大,轨道转移时间很长,机动性能有限。这些特点需要在脉冲OPEG的问题建模和策略设计中充分考虑。 ⋯ \cdots ⋯
2.3.1 脉冲OPEG过程
本文研究的脉冲OPEG问题中,博弈玩家集合为
G
=
(
P
,
E
)
G=(P,E)
G=(P,E),追逃双方在
t
t
t 时刻LVLH坐标系下的状态向量分别为
x
⃗
P
(
t
)
\vec{x}_P(t)
xP(t) 和
x
⃗
E
(
t
)
\vec{x}_E(t)
xE(t) ,脉冲OPEG过程如图2所示。航天器双方同步地在每个
Δ
t
\Delta t
Δt 间隔内执行脉冲控制
Δ
v
⃗
P
t
i
\Delta\vec{v}_P^{t_i}
ΔvPti 和
Δ
v
⃗
E
t
i
\Delta\vec{v}_E^{t_i}
ΔvEti,其中
t
t
t_t
tt 表示双方执行第
i
i
i 次脉冲控制的时刻。追逃双方的动作分别是它们自己的脉冲速度增量
⋯
\cdots
⋯
其中
N
N
N 是OPEG任务结束之前追逃双方执行的脉冲机动总次数。需要强调的是
N
N
N 不是一个固定的常数,而是一个跟双方的策略、初始状态、约束有关的正整数。
2.3.2 时间约束
⋯
\cdots
⋯
注释2: 值得注意的是
t
f
≠
t
N
t_f\neq t_N
tf=tN。
⋯
\cdots
⋯
2.3.3 航天器机动性约束
这一研究中,利用单脉冲控制获得的速度增量来表征航天器的可操纵性。航天器可操纵性的约束意味着通过单脉冲控制可以获得的速度增量有一个上限
Δ
v
ˉ
\Delta\bar v
Δvˉ。追逐者航天器的单一脉冲速度增量需要满足下式
∣
Δ
v
P
,
x
t
i
∣
+
∣
Δ
v
P
,
y
t
i
∣
≤
Δ
v
ˉ
P
,
∀
i
∈
[
1
,
2
,
⋯
,
N
]
\left|\Delta v_{P,x}^{t_i}\right|+\left|\Delta v_{P,y}^{t_i}\right| \leq\Delta\bar v_P,\forall i\in[1,2,\cdots,N]
ΔvP,xti
+
ΔvP,yti
≤ΔvˉP,∀i∈[1,2,⋯,N]
类似地,逃避者需要满足下式
∣
Δ
v
E
,
x
t
i
∣
+
∣
Δ
v
E
,
y
t
i
∣
≤
Δ
v
ˉ
E
,
∀
i
∈
[
1
,
2
,
⋯
,
N
]
\left|\Delta v_{E,x}^{t_i}\right|+\left|\Delta v_{E,y}^{t_i}\right| \leq\Delta\bar v_E,\forall i\in[1,2,\cdots,N]
ΔvE,xti
+
ΔvE,yti
≤ΔvˉE,∀i∈[1,2,⋯,N]
(PS:这里为什么是绝对值而不是平方?)
2.3.4 航天器燃料剩余约束
⋯
\cdots
⋯
追逐者航天器的燃料剩余约束可以用下式表示
∑
i
=
1
N
(
∣
Δ
v
P
,
x
t
i
∣
+
∣
Δ
v
P
,
y
t
i
∣
)
≤
Δ
V
ˉ
P
\sum_{i=1}^N\left(\left|\Delta v_{P,x}^{t_i}\right|+\left|\Delta v_{P,y}^{t_i}\right|\right)\leq\Delta\bar V_P
i=1∑N(
ΔvP,xti
+
ΔvP,yti
)≤ΔVˉP
类似地,逃避者需要满足下式
⋯
\cdots
⋯
2.3.5 终止条件
首先,OPEG的终止条件集合的定义为
{
Λ
=
{
x
⃗
P
(
t
)
,
x
⃗
E
(
t
)
∣
ψ
(
t
,
x
⃗
P
(
t
)
,
x
⃗
E
(
t
)
)
≤
0
}
ψ
(
t
,
x
⃗
P
(
t
)
,
x
⃗
E
(
t
)
)
=
∣
∣
r
⃗
P
(
t
)
,
r
⃗
E
(
t
)
∣
∣
2
−
Δ
r
max
(14)
\begin{cases} \Lambda=\{\vec x_P(t),\vec x_E(t)|\psi(t,\vec x_P(t),\vec x_E(t))\leq 0\} \\ \psi(t,\vec x_P(t),\vec x_E(t))=||\vec r_P(t),\vec r_E(t)||_2-\Delta r_{\max} \end{cases}\tag{14}
{Λ={xP(t),xE(t)∣ψ(t,xP(t),xE(t))≤0}ψ(t,xP(t),xE(t))=∣∣rP(t),rE(t)∣∣2−Δrmax(14)
其中
Δ
r
max
\Delta r_{\max}
Δrmax 是一次成功追逐的最大距离误差,
r
⃗
p
\vec r_p
rp 和
r
⃗
E
\vec r_E
rE 分别为追逃双方在LVLH坐标系下的向量坐标。
OPEG任务在航天器在第一次满足终止条件式(14)时成功,因此终止时间可以通过下式定义
t
f
=
min
{
t
∈
R
+
,
t
∣
x
⃗
P
(
t
)
,
x
⃗
E
(
t
)
∈
Λ
}
(15)
t_f=\min\{t\in R^+,t|\vec x_P(t),\vec x_E(t)\in\Lambda\} \tag{15}
tf=min{t∈R+,t∣xP(t),xE(t)∈Λ}(15)
在本文中,终端时间
t
f
t_f
tf 表示追逐者航天器成功赶上逃避者航天器所需的时间。此外,由于本文考虑了终端时间和燃料储备的约束,当式16或17成立时,任务失败。
⋯
\cdots
⋯
在判断任务是否失败时,我们只关注追逐者的燃料储备的原因如下。可以肯定的是,一旦自身的燃料储备耗尽,追逐者将无法继续完成追逐任务。然而,当逃避者的燃料储备耗尽时,追逐者能否成功抓获逃避者还不确定。
2.3.6 追逃双方的目标函数
在脉冲OPEG中,追逐者的目标是在约束条件下在尽可能短的时间内捕获逃避者。换句话说,追逐者努力寻找脉冲控制序列
u
⃗
P
=
[
Δ
v
⃗
P
t
1
,
Δ
v
⃗
P
t
2
,
⋯
,
Δ
v
⃗
P
t
N
]
\vec{u}_P=[\Delta\vec{v}_P^{t_1},\Delta\vec{v}_P^{t_2},\cdots,\Delta\vec{v}_P^{t_N}]
uP=[ΔvPt1,ΔvPt2,⋯,ΔvPtN] 来最小化与博弈的初始状态、控制策略和其它参数有关的结束时间
t
f
t_f
tf。因此追逐者的目标函数可以表示为
min
u
⃗
P
t
f
=
f
(
x
⃗
P
(
t
0
)
,
x
⃗
E
(
t
0
)
,
u
⃗
P
,
u
⃗
E
,
para
)
(18)
\min_{\vec{u}_P}{t_f}=f(\vec{x}_P(t_0),\vec{x}_E(t_0),\vec{u}_P,\vec{u}_E,\text{para}) \tag{18}
uPmintf=f(xP(t0),xE(t0),uP,uE,para)(18)
相反,逃避者的目标函数是在约束下尽可能延长自己的存活时间,也就是说,寻找脉冲控制序列
u
⃗
E
=
[
Δ
v
⃗
E
t
1
,
Δ
v
⃗
E
t
2
,
⋯
,
Δ
v
⃗
E
t
N
]
\vec{u}_E=[\Delta\vec{v}_E^{t_1},\Delta\vec{v}_E^{t_2},\cdots,\Delta\vec{v}_E^{t_N}]
uE=[ΔvEt1,ΔvEt2,⋯,ΔvEtN] 来最大化结束时间
max
u
⃗
E
t
f
=
f
(
x
⃗
P
(
t
0
)
,
x
⃗
E
(
t
0
)
,
u
⃗
P
,
u
⃗
E
,
para
)
(19)
\max_{\vec{u}_E}{t_f}=f(\vec{x}_P(t_0),\vec{x}_E(t_0),\vec{u}_P,\vec{u}_E,\text{para}) \tag{19}
uEmaxtf=f(xP(t0),xE(t0),uP,uE,para)(19)
其中
para
=
[
Δ
r
max
,
Δ
v
ˉ
P
,
Δ
v
ˉ
E
,
Δ
V
ˉ
P
,
Δ
V
ˉ
E
,
t
max
]
\text{para}=[\Delta r_{\max},\Delta\bar{v}_P,\Delta\bar{v}_E,\Delta\bar{V}_P,\Delta\bar{V}_E,t_{\max}]
para=[Δrmax,ΔvˉP,ΔvˉE,ΔVˉP,ΔVˉE,tmax] 是会影响结束时间
t
f
t_f
tf 的参数集合。
注释3: 式(18)和式(19)中的
f
f
f 与式 (15)近似等价,都用于解释哪些参数影响
t
f
t_f
tf。
2.3.7 脉冲OPEG模型
综上所述,基于追逐航天器和躲避航天器的博弈目标,在综合考虑轨道动力学、推力产生机制、操纵性、燃料储备和终端时间等约束条件后,本文建立了一个通用的多约束脉冲OPEG模型,即
⋯
\cdots
⋯
注释4: 考虑到脉冲机动特性和推进系统的性能(即在实际工程任务中,本文提出了多约束脉冲OPEG的问题模型。与基于微分博弈论的OPEG模型的连续控制版本相比,OPEG模型中的脉冲控制版本更接近太空任务的实际工程场景。该模型更适用于追逃双方都采用脉冲机动的OPEG问题。
3. PRD-MADDPG 算法的设计与分析
本节提出PRD-MADDPG算法来求解式(20)中的脉冲OPEG问题。首先,在分析脉冲OPEG过程的基础上,结合多智能体理论和MDP理论,建立了脉冲OPEG的MDP模型。然后,针对脉冲OPEG任务,分析了基于MADDPG算法的网络训练过程。然后,提出了一种预测奖励检测(PRD)训练框架来改进脉冲OPEG的MADDPG算法,并在PRD-MADDPG方法中为脉冲OPEG模型设计了相应的奖励函数。
3.1 脉冲OPEG的MDP模型
(PS:我觉得这一小节对DDPG里各个概念的定义漏洞百出)
强化学习的基本原理是模仿动物学习的过程:智能体以试错的方式与环境互动,并获得相应的奖励。我们可以通过设计奖励来指导智能体的动作选择策略,算法的目标是通过训练获得能够使智能体获得最大奖励的控制策略。
现有的人工智能在航空航天中的应用研究大多基于单智能体强化学习算法(即DQN、DDPG)。单航天器强化学习的原理如图所示。在时间
t
i
t_i
ti,航天器根据环境(即系统)反馈的状态信息
S
(
t
i
)
S(t_i)
S(ti) 选择动作(即控制指令)
a
(
t
i
)
a(t_i)
a(ti),并执行与环境交互的动作。然后,环境的状态被改变为状态
S
(
t
i
+
1
)
S(t_{i+1})
S(ti+1),并且环境还反馈与动作
a
(
t
i
)
a(t_i)
a(ti) 相对应的奖励
R
(
t
i
)
R(t_i)
R(ti)。通过重复上述过程,航天器根据获得的奖励调整其控制策略,直到能够获得最大的累积奖励。上述过程就是MDP,它是序列决策问题的数学模型。单个航天器的MDP模型可以表示为
⟨
S
,
A
,
P
,
R
,
γ
⟩
\langle S,A,P,R,\gamma\rangle
⟨S,A,P,R,γ⟩
其中,
S
S
S 表示航天器所在环境的状态空间,
A
A
A 表示航天器动作空间集,
P
P
P 表示航天器的状态转移概率,
R
R
R 表示航天器执行动作所获得的反馈奖励,
γ
\gamma
γ 表示智能体获得的累积奖励的奖励折扣因子。航天器决策过程的问题包括找到一个从状态到动作的策略映射,使得如下式所示的未来奖励的总和最大化(PS:我觉得原文公式里把
t
i
t_i
ti 放在上标位置不合理)
J
=
∑
i
γ
i
R
(
t
i
)
J=\sum_i\gamma^iR(t_i)
J=i∑γiR(ti)
上述单个航天器的MDP模型已应用于单个航天器的姿态控制、轨道转移和其他任务。
然而事实是,单智能体强化学习不适用于OPEG问题,将从追逐者航天器的角度进行分析。如图4所示,逃避者航天器的控制策略是不断变化的,因此,即使对系统环境的相同状态采取相同的控制策略,追逐者航天器也可能得到完全不同的结果,这导致系统环境不稳定,并进一步导致单智能体强化学习不收敛。
脉冲OPEG问题也是一个序列决策问题,但属于多智能体决策问题。单个智能体的MDP不能清楚地描述多智能体问题,因此应该在多智能体理论的基础上改进MDP来描述脉冲OPEG的过程。那么脉冲OPEG的MDP可以建立为
⋯
\cdots
⋯
其中
⋯
\cdots
⋯。控制策略相当于反馈控制律,并根据系统(即环境)反馈的状态输出控制命令(即动作)。奖励是航天器状态和动作的标量函数,奖励函数的设置也是算法设计的核心之一,它影响算法的收敛速度、收敛精度和Actor网络的质量。
P
P
P_P
PP 和
P
E
P_E
PE 分别是追赶者和逃避者的控制策略。
γ
P
\gamma_P
γP 和
γ
E
\gamma_E
γE 分别是追求者和逃避者的奖励折扣因子。在脉冲OPEG的MDP模型中,追逐者或逃避者的目标是找到从状态到行动的策略映射,以最大化他们自己未来奖励的总和。
3.2 基于MADDPG的OPEG策略训练
MADDPG算法的提出是在Actor-Critic框架和DDPG算法基础上,利用集中式训练和分散执行的训练框架进行一系列改进,使其能够应用于单智能体强化学习不适用的复杂多智能体环境。因此,本文研究了基于MADDPG算法的脉冲OPEG问题。为了便于理解,本节首先介绍了脉冲OPEG问题的MADDPG算法的框架和算法原理。
⋯
\cdots
⋯
3.3 预测-奖励-检测(PRD)训练框架
尽管MADDPG算法的训练框架(即集中训练和分散执行)是为多智能体系统设计的,但它不能直接用于解决脉冲OPEG问题。在MADDPG算法的训练框架中,航天器只能获得每个决策点
t
i
t_i
ti 的环境观测结果,因此只能根据这些信息设计奖励函数。然而,如图6所示,对于脉冲OPEG,脉冲机动之间的时间间隔太长,训练框架会丢失脉冲间隔内的信息,这将导致强化学习算法收敛性差,甚至无法完成训练。
在本节中,针对脉冲OPEG问题,提出了一种预测-奖励-检测(PRD)训练框架,如图7所示。接下来分别介绍了预测、奖励、检测的原理和含义。
预测: 基于惯性飞行过程的状态转换方程,航天器在脉冲轨道机动惯性飞行过程中的状态是可预测的,也就是可以基于当前状态和控制信息来预测脉冲间隔中的未来轨迹。
奖励: 设计可预测的奖励函数用于将滑行飞行轨迹的信息整合到强化学习过程中,以便在训练过程中也能优化滑行飞行轨迹。
检测: PRD训练框架的最后一步是在检测点检测航天器的预测状态是否满足任务终止条件。
在详细介绍训练框架之前,为了便于理解,首先介绍了一些概念和定义:将施加脉冲控制时间
t
i
t_i
ti 定义为决策点;两个决策点之间的检测点的数量为
σ
\sigma
σ;将
T
m
(
t
i
)
T_m(t_i)
Tm(ti) 定义为
[
t
i
,
t
i
+
1
]
[t_i,t_{i+1}]
[ti,ti+1] 之间的第m个检测点,其中
m
∈
[
1
,
2
,
⋯
,
σ
]
m\in[1,2,\cdots,\sigma]
m∈[1,2,⋯,σ]。
σ
\sigma
σ 的大小需要根据转移时间的长度、决定追逐成功的距离以及航天器的机动性等因素来设计。
训练框架的结构如图8所示。然后以从决策点
t
i
t_i
ti 到决策点
t
i
+
1
t_{i+1}
ti+1 的过程为例来解释训练过程。
第1步, 在决策点
t
i
t_i
ti,追逐者和逃避者根据自己观测到的状态信息使用Actor网络做决策,输出脉冲控制指令
Δ
v
⃗
P
t
i
\Delta\vec v_P^{t_i}
ΔvPti 和
Δ
v
⃗
E
t
i
+
1
\Delta\vec v_E^{t_{i+1}}
ΔvEti+1,然后双方状态分别由
X
⃗
P
(
t
i
−
)
,
X
⃗
E
(
t
i
−
)
\vec X_P(t_i^-),\vec X_E(t_i^-)
XP(ti−),XE(ti−) 变为
X
⃗
P
(
t
i
+
)
,
X
⃗
E
(
t
i
+
)
\vec X_P(t_i^+),\vec X_E(t_i^+)
XP(ti+),XE(ti+)。
第2步, 追逐者和逃避者进入滑行阶段,检测点之间的时间间隔为
Δ
T
d
\Delta T_d
ΔTd。根据下面滑行轨迹的状态转移公式,只要决策点
t
i
t_i
ti 时刻的状态
X
⃗
P
(
t
i
+
)
,
X
⃗
E
(
t
i
+
)
\vec X_P(t_i^+),\vec X_E(t_i^+)
XP(ti+),XE(ti+) 已知,就可以分别计算出决策点
t
i
t_i
ti 之后的第
m
m
m 个检测点处的状态
X
⃗
P
(
T
m
t
i
)
,
X
⃗
E
(
T
m
t
i
)
\vec X_P(T_m^{t_i}),\vec X_E(T_m^{t_i})
XP(Tmti),XE(Tmti)。
X
⃗
P
(
T
m
t
i
)
=
ϕ
(
T
m
t
i
,
t
i
)
X
⃗
P
(
t
i
+
)
\vec X_P(T_m^{t_i})=\phi(T_m^{t_i},t_i)\vec X_P(t_i^+)
XP(Tmti)=ϕ(Tmti,ti)XP(ti+)
第3步, 根据预测奖励函数和预测状态
X
⃗
P
(
T
m
t
i
)
,
X
⃗
E
(
T
m
t
i
)
\vec X_P(T_m^{t_i}),\vec X_E(T_m^{t_i})
XP(Tmti),XE(Tmti) 计算两个航天器的即时奖励(reward)
r
P
(
T
m
t
i
)
,
r
E
(
T
m
t
i
)
r_P(T_m^{t_i}),r_E(T_m^{t_i})
rP(Tmti),rE(Tmti)。
第4步, 根据下式计算双方的累积预测奖励
R
P
(
T
m
t
i
)
=
γ
R
P
(
T
m
−
1
t
i
)
+
r
P
(
T
m
t
i
)
R
E
(
T
m
t
i
)
=
γ
R
E
(
T
m
−
1
t
i
)
+
r
E
(
T
m
t
i
)
\begin{aligned} & R_P(T_m^{t_i})=\gamma R_P(T_{m-1}^{t_i})+r_P(T_m^{t_i}) \\ & R_E(T_m^{t_i})=\gamma R_E(T_{m-1}^{t_i})+r_E(T_m^{t_i}) \\ \end{aligned}
RP(Tmti)=γRP(Tm−1ti)+rP(Tmti)RE(Tmti)=γRE(Tm−1ti)+rE(Tmti)
第5步, 根据预测状态
X
⃗
P
(
T
m
t
i
)
,
X
⃗
E
(
T
m
t
i
)
\vec X_P(T_m^{t_i}),\vec X_E(T_m^{t_i})
XP(Tmti),XE(Tmti) 检测追逐任务是否结束。
⋯
\cdots
⋯
3.4 追逃双方奖励函数的设计
此外,强化学习算法应用中必须解决的另一个核心问题是奖励函数的设计。一个好的奖励函数可以引导智能体朝着更好地完成任务的方向优化策略。而糟糕的奖励函数将导致算法无法收敛到预期结果。因此,针对脉冲OPEG的博弈模型,本节基于PRD训练框架设计了相应的奖励函数。本文将引导奖励和稀疏奖励相结合,设计了即时奖励函数,主要包括以下部分:
距离奖励
r
L
r_L
rL:
⋯
\cdots
⋯
时间奖励
r
t
r_t
rt:
⋯
\cdots
⋯
燃料奖励
r
Δ
v
r_{\Delta v}
rΔv:
⋯
\cdots
⋯
结果奖励
r
Done
r_\text{Done}
rDone:
⋯
\cdots
⋯
基于上述奖励的定义,航天器在时刻
T
m
t
i
T_m^{t_i}
Tmti 的即时奖励是这四个奖励的加权和,公式如下:
⋯
\cdots
⋯
4. 仿真和分析
为了验证PRD-MADDPG算法的可行性,对于地球同步轨道(GEO)中的脉冲OPEG任务,我们使用第3节中提出的PRD-MADPG算法和奖励函数来完成脉冲OPEG控制策略训练,然后在相同参数下将结果与MADDPG演算法进行比较。为了进一步验证PRD-MADDPG算法训练的策略网络具有良好的适应性,我们进行了进一步的适应性测试实验,并对结果进行了分析。
4.1 仿真实验参数
首先介绍仿真实验中脉冲OPEG的场景和约束参数:脉冲OPEG发生在GEO轨道附近,即
h
ref
=
35786
km
h_\text{ref}=35786\text{km}
href=35786km。根据实际太空追逐任务的要求,仿真实验将综合考虑终止时间、燃料储备、机动性和脉冲间隔等约束条件。详细的约束参数值如表1所示。
为了保证PRD-MADDPG算法训练的策略网络的适应性,初始化时在LVLH坐标系下的 40km
×
\times
× 40km范围内随机均匀地分布追逐者和逃避者。追逐者和逃避者的初始状态如表2所示。
PRD-MADDPG算法的超参数及其含义如表3所示。接下来,介绍了仿真实验中使用的软硬件配置如下:仿真实验程序均采用基于Spyder5.05和Anaconda3平台的Python语言编写,深度学习环境基于Tensorflow1.8.0和gym0.10.5构建。最后,仿真实验中使用的计算机配置为:CPU: Intel i7-9700F@3.00 GHz,内存:32 GB。
4.2 仿真实验结果
为了验证PRD-MADDPG算法的性能,我们在相同的参数设置下,将PRD-MADPG算法与MADDPG方法进行了比较。
这两种算法都进行
1
0
6
10^6
106 步训练。在图9、图10和图11中,给出了PRD-MADDPG算法和MADDPG算法在训练过程中的平均奖励(即每1000步)的比较。图9和图10分别显示了追捕者和逃避者的平均奖励随次数的增加而变化。
首先,比较两种算法的收敛速度,PRD-MADDPG算法在训练大约
5
×
1
0
5
5\times 10^5
5×105 步之后达到收敛状态,但MADDPG算法即使在
1
0
6
10^6
106 步训练后也未能达到收敛状态。因此,与MADDPG相比,PRD-MADDPG算法在解决多约束脉冲OPEG问题时具有更快的收敛速度。此外,比较图11中两种算法的主奖励值,PRD-MADDPG算法可以获得比MADDPG更高的主奖励,这表明PRD-MADPG算法具有更好的收敛性能。
与奖励值相比,在脉冲OPEG问题中,更受关注的是追逐任务的成功率。接下来,分别给出了每1000步中三个结果(即a.成功追逐,b.燃料耗尽,c.超时)的比例。
首先,如图12所示,PRD-MADDPG算法在训练过程中每个结果的比例随着训练步数的增加而变化,并最终稳定在一定范围内:PRD-MADDPG算法的成功率随着训练步数来逐渐增加,大约
5
×
1
0
5
5\times 10^5
5×105 步后从最初的2%稳定在96%左右。一开始的燃料消耗率约为80%,训练后最终稳定在5%以下,时间耗尽率也从一开始的20%左右,到训练后基本没有耗尽(见图13)。
相反,随着训练次数的增加,MADDPG算法的追逐成功率始终低于5%,变化不大,而燃料消耗率不断增加,最终甚至保持在96%以上,这表明MADDPG方法无法通过训练获得多约束脉冲OPEG所需的控制策略。然后结合图11中MADDPG算法主要奖励的变化,对上述仿真结果进行如下分析。高燃料消耗率和主要奖励的增加表明,MADDPG算法试图使用各种策略来完成追逐任务。然而,在脉冲OPEG中,MADDPG算法忽略了位于脉冲控制区间内的滑行过程,这导致了大量信息的丢失。为了解决上述问题,本文结合轨道运动规律,提出了PRD训练框架,将滑行过程的信息整合到训练过程中,并进一步设计了相应的预测奖励函数,引导算法更好地完成训练,形成了PRD-MADDPG算法。
在完成PRD-MADDPG算法的训练后,可以获得一组用于脉冲OPEG的策略网络(即Actor网络)。每个航天器的策略网络可以根据自己的观测信息自主生成控制命令。为了进一步说明PRD-MADDPG算法训练得到的策略网络的有效性,一个完整的脉冲OPEG过程为:追逐者和逃避者的初始位置坐标分别为[-6396m,4834m]和[12481m,13353m]。在整个博弈过程中,两个航天器都使用自己的策略网络,根据自己的观测结果实时获得控制指令。此外,图14显示了脉冲OPEG过程的轨迹图,图中的点和数字表示该点是第
i
i
i 个决策点
t
i
t_i
ti,图15显示了两个航天器之间的相对距离随时间的变化。图16和图17分别显示了在脉冲OPEG过程中,追踪者和逃避者的每个决策点
t
i
t_i
ti 对应的脉冲控制命令。这些结果进一步验证了PRD-MADDPG算法训练的策略网络的有效性。
4.3 适应性实验与分析
PRD-MADDPG算法训练的策略网络不仅适用于训练过程中包含的博弈场景,而且在不进行再训练的情况下,对其他初始状态、机动性和燃料储备不同的博弈场景也具有一定的适应性。然而,这些传统的数值方法并不具有这样的适应性。当初始状态和约束条件发生变化时,需要重新计算以获得博弈控制策略。为了验证PRD-MADDPG算法具有适应性,本节对PRD-MADPG算法训练得到的策略网络在不同博弈场景下进行适应性测试实验。
⋯
\cdots
⋯
5. 结论
本文在实际工程任务中考虑机动性、燃料储备、终端时间等约束因素,提出了一种多约束脉冲OPEG问题模型。针对该问题,该文结合MADDPG算法和预测-奖励-检测训练框架,进一步提出了一种PRD-MADDPG算法。在仿真实验部分,应用PRD-MADDPG算法求解GEO附近多约束脉冲OPEG问题。实验结果表明,与MADDPG算法相比,PRD-MADDPG算法具有更快的收敛速度、更好的收敛效果和更高的追踪成功率,验证了PRD-MADDPG算法的可行性和效率。此外,与传统数值算法相比,航天器可以依靠自身的策略网络,根据自身对环境的实时观测,直接输出控制命令,效率非常高,不需要重新求解非线性方程、积分计算等复杂的计算操作。此外,测试实验结果进一步证明,PRD-MADDPG算法训练得到的策略网络具有良好的适应性,可应用于不同初始和约束条件下的博弈场景。然而,应该指出的是,本文的一个局限性是假设追逐者和逃避者需要同时推力。未来将针对每个玩家的决策时间不同的情况研究追逃博弈的问题。