多智能体博弈论文学习(3)Task Assignment for Multiplayer Reach-Avoid Games via Analytical Barriers

论文原文:Task Assignment for Multiplayer Reach-Avoid Games in Convex Domains via Analytical Barriers

这篇论文的作者和上一篇阅读笔记的作者是同一人,如果对于barrier是如何解析计算感兴趣可以去上一篇看看:多智能体博弈论文学习(2)Reach-Avoid Games With Two Defenders and One Attacker: An Analytical Approach

这篇论文相对于上一篇有什么创新?

  1. 上一篇仅考虑了2 pursuers VS 1 evader的情况,没有考虑更复杂的协同。
  2. 上一篇仅考虑了长方形的区域,并且pursuers初始都位于play region中。

论文的主要贡献

  1. 解析计算2 pursuers VS 1 evader情况下的barrier。
  2. 解析计算多个pursuers对单个evader的barrier。(首次解析地解决了超过3个player的RA博弈的界栅构造问题)
  3. 使用0-1规划求解pursuers到拦截任务的任务分配问题,由于barrier的先验信息,计算量被大大简化。
  4. 上述所有方法都是解析的,并且可以实时更新。

一、摘要

这篇论文考虑一个有界凸区域内的多玩家reach-avoid博弈问题。玩家分为两个敌对的阵营,分别是pursuers和evaders。pursuers的目标是尽可能在evaders到达target region前拦截所有evaders,而evaders的目标是避免被pursuers拦截并且让尽可能多的evaders到达target region。论文给出了界栅(barrier)的解析计算方法,提出了一种使用简化0-1规划方法求解任务分配问题,能够保证最多的evaders被拦截并且避免了求解NP问题。论文提出的所有方法都是解析的。

二、主要内容

2.1 问题陈述

在这里插入图片描述
pursuers集合: { P i } i = 1 N p = { P 1 , … , P N p } \{P_{i}\}_{i=1}^{N_{p}}=\{P_{1},\ldots,P_{N_{p}}\} {Pi}i=1Np={P1,,PNp}。evaders集合: { E j } j = 1 N e = { E 1 , … , E N e } \{E_{j}\}_{j=1}^{N_{e}}=\{E_{1},\ldots,E_{N_{e}}\} {Ej}j=1Ne={E1,,ENe}。玩家的位置可以用如下的状态方程描述:
x ˙ P i ( t ) = v P i u P i ( t ) , x P i ( 0 ) = x P i 0 , i = 1 , … , N p x ˙ E j ( t ) = v E j u E j ( t ) , x E j ( 0 ) = x E j 0 , j = 1 , … , N e (1) \begin{aligned}\dot{\mathbf{x}}_{P_i}(t)&=v_{P_i}\mathbf{u}_{P_i}(t),\quad\mathbf{x}_{P_i}(0)=\mathbf{x}_{P_i}^0,\quad i=1,\ldots,N_p\\\dot{\mathbf{x}}_{E_j}(t)&=v_{E_j}\mathbf{u}_{E_j}(t),\quad\mathbf{x}_{E_j}(0)=\mathbf{x}_{E_j}^0,\quad j=1,\ldots,N_e\end{aligned}\tag{1} x˙Pi(t)x˙Ej(t)=vPiuPi(t),xPi(0)=xPi0,i=1,,Np=vEjuEj(t),xEj(0)=xEj0,j=1,,Ne(1)
其中控制量 u \bold u u是一个模为1的二维向量,所有的pursuers是同构的,即最大速度 v P v_P vP是相等的,所有的evaders是同构的,即最大速度 v E v_E vE是相等的。

游戏双方胜利条件与多智能体博弈论文学习(2)Reach-Avoid Games With Two Defenders and One Attacker: An Analytical Approach相同,play region、target region等等定义也类似,本文不再赘述,感兴趣的读者可以自行查阅。

pursuers之间可以结为联盟(coalition),联盟包含的pursuers数量可能是1,2,……, N p N_{p} Np,那么所有可能的联盟数共有 2 N p − 1 2^{N_p - 1} 2Np1个,每个联盟可以用如下的定义表示

定义1(Binary Coalition for Pursuit Team) k k k的第 i i i位二进制数为1则 P i P_i Pi属于联盟 k k k。联盟 k k k中包含的所有pursuers的序号用集合 I k = { m j ∣ 1 ≤ m j ≤ N p , j = 1 , 2 , … , n k } \mathcal{I}_{k}=\{m_{j}|1\leq m_{j}\leq N_{p},j=1,2,\ldots,n_{k}\} Ik={mj∣1mjNp,j=1,2,,nk}表示,其中 n k n_k nk是联盟 k k k包含的pursuers数量。(例如联盟5的二进制表示为“101”, I 5 = { P 1 , P 3 } \mathcal{I}_{5} = \{P_1, P_3\} I5={P1,P3}

定义2(Pursuit Subcoalition):如果联盟 k 1 k_1 k1的所有pursuers都在 k 2 k_2 k2中,那么联盟 k 1 k_1 k1称为 k 2 k_2 k2subcoalition

为什么所有可能的联盟数共有 2 N p − 1 2^{N_p - 1} 2Np1个?
想象把所有pursuers排成一列,如果要将它分成 m m m份,那么只需要从中间抽出 m − 1 m-1 m1个即可,那么总共就有
∑ m = 1 N p C N p m = ∑ m = 0 N p C N p m − C N p 0 = 2 N p − 1 \sum_{m=1}^{N_p} C_{N_p}^m = \sum_{m=0}^{N_p} C_{N_p}^m - C_{N_p}^0 = 2^{N_p - 1} m=1NpCNpm=m=0NpCNpmCNp0=2Np1

假设1(Isolate Initial Deployment):每个Player初始的位置都不同。

假设2(Constrained Initial Deployment):pursuers初始位置满足 x P i 0 ∈ Ω p l a y ∪ T \mathbf{x}_{P_i}^0\in\Omega_{\mathrm{play}}\cup\mathcal{T} xPi0ΩplayT,evaders初始位置满足 x E j 0 ∈ Ω p l a y \mathbf{x}_{E_j}^0\in\Omega_{\mathrm{play}} xEj0Ωplay

假设3(Relaxed Initial Deployment):pursuers初始位置满足 x P i 0 ∈ Ω \mathbf{x}_{P_i}^0\in\Omega xPi0Ω,evaders初始位置满足 x E j 0 ∈ Ω p l a y \mathbf{x}_{E_j}^0\in\Omega_{\mathrm{play}} xEj0Ωplay

假设4(Speed Ratio):定义 α = v E / v P \alpha = v_E/v_P α=vE/vP 0 < α < 1 0<\alpha<1 0<α<1

2.2 Preliminaries

2.2.1 ER和BER的计算

此处的计算类似Apollonius Circle,ER(evasion region)是Evader能够比Pursuer更快到达的区域,ER的边界称为BER(Boundary of ER)。按照定义,ER和BER可以分别表示为:
R e = { z ∈ R 2 ∣ ∥ z − x E j 0 ∥ 2 < α ∥ z − x P i 0 ∥ 2 } A = { z ∈ R 2 ∣ ∥ z − x E j 0 ∥ 2 = α ∥ z − x P i 0 ∥ 2 } \begin{aligned}\mathcal{R}_e&=\left\{\mathrm{z}\in\mathbb{R}^2|\|\mathrm{z}-\mathrm{x}_{E_j}^0\|_2<\alpha\|\mathrm{z}-\mathrm{x}_{P_i}^0\|_2\right\}\\\mathcal{A}&=\left\{\mathrm{z}\in\mathbb{R}^2|\|\mathrm{z}-\mathrm{x}_{E_j}^0\|_2=\alpha\|\mathrm{z}-\mathrm{x}_{P_i}^0\|_2\right\}\end{aligned} ReA={zR2∣∥zxEj02<αzxPi02}={zR2∣∥zxEj02=αzxPi02}
对于 R e \mathcal{R}_e Re的不等式进行变形,可以得到:
∥ z − x E j 0 ∥ 2 2 < α 2 ∥ z − x P i 0 ∥ 2 2 ⇒ ∥ z ∥ 2 2 − 2 ( x E j 0 − α 2 x P i 0 ) T z 1 − α 2 < α 2 ∥ x P i 0 ∥ 2 2 − ∥ x E j 0 ∥ 2 2 1 − α 2 ⇒ ∥ z − x E j 0 − α 2 x P i 0 1 − α 2 ∥ 2 2 < α 2 ∥ x E j 0 − x P i 0 ∥ 2 2 ( 1 − α 2 ) 2 ⇒ ∥ z − η ( x E j 0 , x P i 0 ) ∥ 2 2 < r 2 ( x E j 0 , x P i 0 ) \begin{aligned} &\|\mathbf{z}-\mathbf{x}_{E_j}^0\|_2^2<\alpha^2\|\mathbf{z}-\mathbf{x}_{P_i}^0\|_2^2 \\ &\Rightarrow\|\mathrm{z}\|_2^2-2\frac{\left(\mathbf{x}_{E_j}^0-\alpha^2\mathbf{x}_{P_i}^0\right)^\mathsf{T}\mathbf{z}}{1-\alpha^2}<\frac{\alpha^2\|\mathbf{x}_{P_i}^0\|_2^2-\|\mathbf{x}_{E_j}^0\|_2^2}{1-\alpha^2} \\ &\Rightarrow\left\|\mathbf{z}-\frac{\mathbf{x}_{E_j}^0-\alpha^2\mathbf{x}_{P_i}^0}{1-\alpha^2}\right\|_2^2<\frac{\alpha^2\|\mathbf{x}_{E_j}^0-\mathbf{x}_{P_i}^0\|_2^2}{(1-\alpha^2)^2} \\ &\Rightarrow\left\|\mathbf{z}-\eta\left(\mathbf{x}_{E_j}^0,\mathbf{x}_{P_i}^0\right)\right\|_2^2<r^2\left(\mathbf{x}_{E_j}^0,\mathbf{x}_{P_i}^0\right) \end{aligned} zxEj022<α2zxPi022z2221α2(xEj0α2xPi0)Tz<1α2α2xPi022xEj022 z1α2xEj0α2xPi0 22<(1α2)2α2xEj0xPi022 zη(xEj0,xPi0) 22<r2(xEj0,xPi0)

其中 η \eta η r r r的定义如下:
r ( x , y ) = α ∥ x − y ∥ 2 1 − α 2 η ( x , y ) = x − α 2 y 1 − α 2 \begin{aligned} r(\boldsymbol{x},\boldsymbol{y}) &=\frac{\alpha\|\boldsymbol{x}-\boldsymbol{y}\|_2}{1-\alpha^2} \\ \eta(\boldsymbol{x},\boldsymbol{y}) &=\frac{\boldsymbol{x}-\alpha^2\boldsymbol{y}}{1-\alpha^2} \end{aligned} r(x,y)η(x,y)=1α2αxy2=1α2xα2y

在这里插入图片描述

2.2.2 Key Function

引理1(Monotony of Function):设BER与 y = 0 y=0 y=0的交集 A ∩ { z ∈ R 2 ∣ y = 0 } = { ( c 1 , 0 ) , ( c 2 , 0 ) } \mathcal{A}\cap \{\mathbf{z}\in\mathbb{R}^2|y=0\}=\big\{(c_1,0),(c_2,0)\big\} A{zR2y=0}={(c1,0),(c2,0)},且 c 1 < c 2 c_1 < c_2 c1<c2 x P i 0 ≤ x E j 0 x_{P_{i}}^{0}\leq x_{E_{j}}^{0} xPi0xEj0,则函数
G 1 ( x p ) = ∥ p − x P i 0 ∥ 2 − ∥ p − x E j 0 ∥ 2 α , p = ( x p , 0 ) G_1(x_p)=\left\|\boldsymbol p-\mathbf{x}_{P_i}^0\right\|_2-\frac{\left\| \boldsymbol p-\mathbf{x}_{E_j}^0\right\|_2}{\alpha},\quad\boldsymbol{p}=(x_p,0) G1(xp)= pxPi0 2α pxEj0 2,p=(xp,0)
在区间 x p ∈ [ c 1 , x p ∗ ] x_{p}\in[c_{1},x_{p}^{*}] xp[c1,xp]严格单调递增,在区间 x p ∈ [ x p ∗ , c 2 ] x_{p}\in[x_{p}^{*},c_{2}] xp[xp,c2]严格单调递减。其中, x p ∈ [ c 1 , c 2 ] x_p \in [c_1, c_2] xp[c1,c2]可以由如下的方程求解
x p ∗ − x P i 0 ∥ p ∗ − x P i 0 ∥ 2 = x p ∗ − x E j 0 α ∥ p ∗ − x E j 0 ∥ 2 , p ∗ = ( x p ∗ , 0 ) \frac{x_p^*-x_{P_i}^0}{\left\|p^*-\mathrm{x}_{P_i}^0\right\|_2}=\frac{x_p^*-x_{E_j}^0}{\alpha\left\|p^*-\mathrm{x}_{E_j}^0\right\|_2},\quad p^*=(x_p^*,0) pxPi0 2xpxPi0=α pxEj0 2xpxEj0,p=(xp,0)

证明过程与上一篇论文阅读笔记类似

2.3 One Pursuit Coalition VS One Evader

这一节讨论了一个Pursuit Coalition VS One Evader的情形,记 X k 0 = { x P m 1 0 , … , x P m n k 0 } ∈ R 2 n k \mathcal{X}_{k}^{0}=\{\mathrm{x}_{P_{m_{1}}}^{0},\ldots,\mathrm{x}_{P_{mn_{k}}}^{0}\}\in\mathbb{R}^{2n_{k}} Xk0={xPm10,,xPmnk0}R2nk P k = { u P m 1 , … , u P m n k } ∈ U n k \mathcal{P}_k=\{\mathbf{u}_{P_{m_1}},\ldots,\mathbf{u}_{P_{m_{n_k}}}\}\in\mathcal{U}^{n_k} Pk={uPm1,,uPmnk}Unk是pursuit coalition k k k的初始位置集和控制量集合。需要解决两个问题:

  1. 如果evader初始位于pursuit winning region,求出pursuers的控制量集合以拦截evader
  2. 如果evader初始位于evasion winning region,求出evader的控制量以到达target region
    要解决这个问题,首先需要求解出PWR和EWR以及他们的分界线Barrier,如下图的 W E 1 \mathcal W_E^1 WE1 W P 1 \mathcal W_P^1 WP1 B 1 \mathcal B^1 B1
    在这里插入图片描述

根据pursuer是否影响Barrier的形状、位置,论文给出了如下的定义

定义3(Active and Inactive Pursuers):对于pursuer P i   ( i ∈ I k ) P_i \ (i\in\mathcal I_k) Pi (iIk),如果在target line T \mathcal T T上存在一点使得 P i P_i Pi能够比 k k k中其他pursuers更快到达,那么就称 P i P_i Pi是一个active pursuer,否则称为inactive pursuer。

active和inactive是相对的,一个pursuer是否是active的取决于evader的位置以及联盟中其他pursuers的位置。也就是说,在联盟 k k k中一个active的pursuer可能在另一个联盟中是inactive的,反之同理。

为了求解玩家的最优策略,论文定义了如下的收益函数:
定义4(Payoff Function):对于联盟 k k k和逃避者 E j E_j Ej,如果 E j E_j Ej能够成功到达 T \mathcal T T,则将 E j E_j Ej到达KaTeX parse error: Undefined control sequence: \matchal at position 1: \̲m̲a̲t̲c̲h̲a̲l̲ ̲T时到其最近的pursuer的距离记为收益函数 J J J J J J和它对应的价值函数 V V V分别具有如下形式
J = min ⁡ i ∈ I k ∥ x P i ( t 1 ) − x E j ( t 1 ) ∥ 2 , V = min ⁡ P k ∈ U n k max ⁡ u E j ∈ U J J=\min_{i\in\mathcal{I}_k}\|\mathbf{x}_{P_i}(t_1)-\mathbf{x}_{E_j}(t_1)\|_2,V=\min_{\mathcal{P}_k\in\mathcal{U}^nk}\operatorname*{max}_{\mathbf{u}_{E_j}\in\mathcal{U}}J J=iIkminxPi(t1)xEj(t1)2,V=PkUnkminuEjUmaxJ
其中 t 1 t_1 t1 E j E_j Ej首次到达 T \mathcal T T的时刻。

根据这个收益函数,可以使用Reach-Avoid Games With Two Defenders and One Attacker: An Analytical Approach中的方法计算Barrier和optimal target,与之前的方法类似,利用一阶必要条件计算fixed optimal target和unfixed optimal target,然后计算对应的Barrier,本文不再赘述,感兴趣的读者可以自行查阅这两篇论文。

2.4 General Pursuit Coalitions VS One Evader

这一部分中,论文将2 Pursuers VS 1 Evader的情况进行了推广,主要有以下几点

  1. 研究了联盟中所有pursuers均为active pursuer的情况
  2. 说明了每一个一般的联盟都可以唯一退化为所有成员均为active pursuers的子联盟
  3. 证明了退化后的子联盟与原联盟拥有相同的barrier
  4. 给出了这种特殊的联盟的定义

定义6(Full-Active Pursuit Coalition):给定联盟 k k k,如果对于任何 P i ( i ∈ I k ) P_i\left(i\in\mathcal{I}_k\right) Pi(iIk),总是存在 T \mathcal{T} T上一点使得 P i P_i Pi能够比 k k k中其他pursuers更快到达,那么 k k k称为full-active pursuit coalition。

Full-active pursuit coalition的barrier求解过程与one coalition VS one Evader类似,结果如下图所示
在这里插入图片描述

一般的联盟中存在部分inactive pursuers,这些pursuers会增加分析的复杂程度,为了直接使用full-active pursuit coalition的结论,论文提出了一种方法来从一般的联盟中提取最大的full-active pursuit coalition。

引理3(Barrier Equivalence):对于任意的联盟 k k k B n k ( X k 0 ) = B n ˉ k ( X ˉ k 0 ) \mathcal{B}^{n_k}(\mathcal{X}_k^0)=\mathcal{B}^{\bar{n}_k}(\bar{\mathcal{X}}_k^0) Bnk(Xk0)=Bnˉk(Xˉk0)成立,其中 X ˉ k 0 \bar{\mathcal{X}}_k^0 Xˉk0 X k 0 \mathcal{X}_k^0 Xk0的largest full-active pursuit coalition,其中包含 n ˉ k \bar{n}_k nˉk个pursuers。

Lemma 3的证明
显然,当 X k 0 ∖ X ˉ k 0 \mathcal{X}_k^0\setminus\bar{\mathcal{X}}_k^0 Xk0Xˉk0为空集,即原coalition与largest full-active pursuit coalition相同时,Lemma 3成立。对于 n k > n ˉ k n_k > \bar n_k nk>nˉk的情况,只需证明 W E n k = W E n ˉ k \mathcal{W} _E^{n_k} = \mathcal{W} _E^{\bar n_k} WEnk=WEnˉk即可。

根据定义,如果从 X k 0 \mathcal{X}_k^0 Xk0中去掉几个pursuer,则 W E n k \mathcal{W} _E^{n_k} WEnk一定会扩大(去掉active pursuer)或者不变(去掉inactive pursuer),所以我们可以得到 W E n k ⊆ W E n ˉ k \mathcal{W} _E^{n_k}\subseteq \mathcal{W}_E^{\bar n_k} WEnkWEnˉk,因此只需证明 W E n ˉ k ⊆ W E n k \mathcal{W} _E^{\bar n_k} \subseteq \mathcal{W}_E^{n_k} WEnˉkWEnk即可,等价的,只需证明 W ˇ E n ˉ k ⊆ W ˇ E n k \check{\mathcal{W}}_E^{\bar{n}_k}\subseteq \check{\mathcal{W}}_E^{n_k} WˇEnˉkWˇEnk

p ∈ W ˇ E n ˉ k \bold p\in\check{\mathcal W}_E^{\bar{n}_k} pWˇEnˉk,则必存在 p 1 ∈ T \bold p_1\in\mathcal{T} p1T使对于所有的 x P i 0 ∈ X ˉ k 0 \mathbf{x}_{P_i}^0\in\bar{\mathcal{X}}_k^0 xPi0Xˉk0都有
∥ p − p 1 ∥ 2 < α ∥ x P i 0 − p 1 ∥ 2 (43) \|\bold p-\bold p_1\|_2<\alpha\|\bold{x}_{P_i}^0-\bold p_1\|_2 \tag{43} pp12<αxPi0p12(43)

假设 x P j 0 ∈ X k 0 ∖ X ˉ k 0 \mathbf{x}_{P_{j}}^{0}\in\mathcal{X}_{k}^{0}\setminus\bar{\mathcal{X}}_{k}^{0} xPj0Xk0Xˉk0,并且满足
α ∥ x P j 0 − p 1 ∥ 2 ≤ ∥ p − p 1 ∥ 2 (44) \alpha\begin{Vmatrix}\mathbf{x}_{P_j}^0-\bold p_1\end{Vmatrix}_2\leq\begin{Vmatrix}\bold p-\bold p_1\end{Vmatrix}_2 \tag{44} α xPj0p1 2 pp1 2(44)

联立上述两个不等式有
∥ x P j 0 − p 1 ∥ 2 < ∥ x P i 0 − p 1 ∥ 2 (45) \left\|\mathbf{x}_{P_j}^0-\bold p_1\right\|_2<\left\|\mathbf{x}_{P_i}^0-\bold p_1\right\|_2 \tag{45} xPj0p1 2< xPi0p1 2(45)
说明 x P j 0 \bold x_{P_j}^0 xPj0能够比其他pursuers更快到达 p 1 \bold p_1 p1,与 X ˉ k 0 \bar{\mathcal{X}}_k^0 Xˉk0是largest full-active pursuit subcoalition矛盾,因此式(44)不成立,即对于所有的 x P j 0 ∈ X k 0 ∖ X k 0 ˉ \mathbf{x}_{P_{j}}^{0}\in\mathcal{X}_{k}^{0}\setminus\bar{\mathcal{X}_{k}^{0}} xPj0Xk0Xk0ˉ都有
∥ p − p 1 ∥ 2 < α ∥ x P j 0 − p 1 ∥ 2 (46) \|\bold p-\bold p_1\|_2<\alpha\|\mathbf{x}_{P_j}^0-\bold p_1\|_2 \tag{46} pp12<αxPj0p12(46)
由(43)到(46)我们可以得到如下结论

存在 p 1 ∈ T \bold p_1\in \mathcal T p1T使得 p \bold p p能够比 X k 0 \mathcal X_k^0 Xk0中的所有pursuers更快到达,因此, p ∈ W ˇ E n k \bold p\in \check{\mathcal W}_E^{n_k} pWˇEnk,说明 W ˘ E n ˉ k ⊆ W ˘ E n k \breve{W}_E^{\bar{n}_k}\subseteq\breve{W}_E^{n_k} W˘EnˉkW˘Enk,证毕。

Largest full-active pursuit subcoalition存在性与唯一性的说明

X ˉ k 0 ⊆ X k 0 \bar{\mathcal X}_k^0\subseteq \mathcal X_k^0 Xˉk0Xk0,因此存在性显然成立。

假设 X ˉ k 0 \bar{\mathcal X}_k^0 Xˉk0 Y ˉ k 0 \bar{\mathcal Y}_k^0 Yˉk0是分别具有 n ˉ k \bar n_k nˉk m ˉ k \bar m_k mˉk的两个largest full-active pursuit subcoalition,从中选取一个 x P i 0 ∈ X k 0 ˉ \mathbf{x}_{P_{i}}^{0}\in\bar{\mathcal{X}_{k}^{0}} xPi0Xk0ˉ x P i 0 ∉ Y ˉ k 0 \mathbf{x}_{P_{i}}^{0}\notin\bar{\mathcal{Y}}_{k}^{0} xPi0/Yˉk0,则 P i P_i Pi不可能比 Y ˉ k 0 \bar{\mathcal Y}_k^0 Yˉk0中的pursuers更早到达 T \mathcal T T,这与 X ˉ k 0 \bar{\mathcal X}_k^0 Xˉk0中的pursuers均为active矛盾,唯一性得证。

R D \mathcal R_D RD P m i P_{m_i} Pmi能够比 P m j P_{m_j} Pmj更早到达的点的集合,即
R D ( x P m i 0 , x P m j 0 ) = { z ∈ R 2 ∣ ∥ z − x P m i 0 ∥ 2 < ∥ z − x P m j 0 ∥ 2 } \begin{aligned} \mathcal{R}_D\bigg(\mathbf{x}_{P_{m_i}}^0,\mathbf{x}_{P_{m_j}}^0\bigg)&=\bigg\{\mathbf{z}\in\mathbb{R}^2\bigg|\bigg\Vert\mathbf{z}-\mathbf{x}_{P_{m_i}}^0\bigg\Vert_2<\bigg\Vert\mathbf{z}-\mathbf{x}_{P_{m_j}}^0\bigg\Vert_2\bigg\} \end{aligned} RD(xPmi0,xPmj0)={zR2 zxPmi0 2< zxPmj0 2}

基于上述分析,论文给出了寻找一个pursuit coalition的largest full-active pursuit coalition的算法:
在这里插入图片描述
定理4(Barrier for General Pursuit Coalition):考虑满足假设1、2、4的系统(1),对于pursuit coalition k k k ,它的largest full-active pursuit subcoalition X ˉ k 0 \bar{\mathcal{X}}_k^0 Xˉk0(包含 n ˉ k \bar n_k nˉk个pursuers)可以通过算法1被找到,它的barrier可以通过定理3计算。

2.5 Extensions to Relaxed Initial Deployment

之前的分析都是基于假设3的,这就要求pursuers初始位置位于play region中,在这一部分中,论文对通过引入Virtual Pursuer的概念,将barrier和winning region的计算推广到了初始位置可以位于target region的情况。

在这里插入图片描述
定义7(Virtual Pursuer):对于每个满足 x P i 0 = ( x P i 0 , y P i 0 ) ∈ Ω t a r \mathbf{x}_{P_{i}}^{0}=(x_{P_{i}}^{0},y_{P_{i}}^{0})\in\Omega_{\mathrm{tar}} xPi0=(xPi0,yPi0)Ωtar的pursuer P i P_i Pi,引入一个virtual pursuer P ~ i \tilde P_i P~i,满足 x ~ P i 0 = ( x ~ P i 0 , y ~ P i 0 ) \tilde{\mathbf{x}}_{P_{i}}^{0}=(\tilde{x}_{P_{i}}^{0},\tilde{y}_{P_{i}}^{0}) x~Pi0=(x~Pi0,y~Pi0) x ~ P i 0 = x P i 0 \tilde{x}_{P_{i}}^{0}=x_{P_{i}}^{0} x~Pi0=xPi0 y ~ P i 0 = − y P i 0 \tilde{y}_{P_{i}}^{0}=-y_{P_{i}}^{0} y~Pi0=yPi0

由于virtual pursuer可能导致假设1不成立,因此将假设1修改为如下的假设5:

假设5:假设每个virtual pursuer都不与其他pursuers重合,但是允许virtual pursuer与其origin pursuer重合,即 x P i 0 ∈ T \bold x_{P_i}^0\in \mathcal T xPi0T

引理4(Mirror Property):对于 k k k,若 x P i 0 ∈ Ω tar  ( i ∈ I k ) \mathbf{x}_{P_i}^0\in\Omega_\text{tar }{ ( i \in \mathcal{I}_k)} xPi0Ωtar (iIk),令 X k 0 ( − i ) \mathcal{X}_k^0(-i) Xk0(i)表示去掉 x P i \bold x_{P_i} xPi后的其他pursuers的初始位置集合, x ~ P i 0 \tilde{\bold x}_{P_i}^0 x~Pi0表示 x P i \bold x_{P_i} xPi的virtual pursuer,则有如下结论成立
B n k ( X k 0 ) = B n k ( X k 0 ( − i ) ∪ x ~ P i 0 ) \mathcal{B}^{n_{k}}(\mathcal{X}_{k}^{0}) = \mathcal{B}^{n_{k}}(\mathcal{X}_{k}^{0}(-i)\cup\tilde{\mathbf{x}}_{P_{i}}^{0}) Bnk(Xk0)=Bnk(Xk0(i)x~Pi0)

引理4的证明:设 p ∈ W E n k ( X k 0 ( − i ) ∪ x ~ P i 0 ) p\in\mathcal{W}_{E}^{n_{k}}(\mathcal{X}_{k}^{0}(-i)\cup\tilde{\mathbf{x}}_{P_{i}}^{0}) pWEnk(Xk0(i)x~Pi0),存在一点 p 1 ∈ T \bold p_1 \in \mathcal T p1T使得式(48)对于所有的 x P j 0 ∈ X k 0 ( − i ) ∪ x ~ P i 0 \mathbf{x}_{P_j}^0\in\mathcal{X}_k^0(-i)\cup\tilde{\mathbf{x}}_{P_i}^0 xPj0Xk0(i)x~Pi0都成立
∥ p − p 1 ∥ 2 < α ∥ x P j 0 − p 1 ∥ 2 (48) \|\bold p-\bold p_1\|_2<\alpha\|\mathbf{x}_{P_j}^0-\bold p_1\|_2 \tag{48} pp12<αxPj0p12(48)

根据定义7,有式(49)成立
∥ x P i 0 − p 1 ∥ 2 = ∥ x ~ P i 0 − p 1 ∥ 2 (49) \left\|\mathbf{x}_{P_i}^0-\bold p_1\right\|_2=\left\|\tilde{\mathbf{x}}_{P_i}^0-\bold p_1\right\|_2 \tag{49} xPi0p1 2= x~Pi0p1 2(49)

因为(48)对所有的 x P j 0 ∈ X k 0 \mathbf{x}_{P_{j}}^0\in\mathcal{X}_{k}^0 xPj0Xk0成立,因此 p ∈ W E n k ( X k 0 ) \bold p \in \mathcal{W}_E^{n_k}(\mathcal X_k^0) pWEnk(Xk0)。因此 W E n k ( X k 0 ( − i ) ∪ x ~ P i 0 ) ⊆ W E n k ( X k 0 ) \mathcal{W}_{E}^{n_{k}}(\mathcal{X}_{k}^{0}(-i)\cup\tilde{\mathbf{x}}_{P_{i}}^{0})\subseteq\mathcal{W}_{E}^{n_{k}}(\mathcal{X}_{k}^{0}) WEnk(Xk0(i)x~Pi0)WEnk(Xk0)

另一个方向的包含关系也可以通过类似的方法证明,本处不再赘述。

通过这一引理,论文给出了如下的针对relaxed initial deployment的barrier计算方法。

推论1(Barrier for Relaxed Initial Deployment):考虑满足假设1,3,4的系统(1),对于一个pursuit coalition k k k,令 X k , 1 0 \mathcal X_{k,1}^0 Xk,10 X k , 2 0 \mathcal X_{k,2}^0 Xk,20分别表示初始位置在 Ω play \Omega_{\text{play}} Ωplay Ω tar \Omega_{\text{tar}} Ωtar的pursuers, X k , 2 0 \mathcal X_{k,2}^0 Xk,20对应的virtual pursuers的集合为 X ~ k , 2 0 \tilde{\mathcal X}_{k,2}^0 X~k,20。则有如下结论成立:
B n k ( X k 0 ) = B n k ( X k , 1 0 ∪ X ~ k , 2 0 ) \mathcal B^{n_k}(\mathcal X_k^0) = \mathcal B^{n_k} (\mathcal X_{k,1}^0 \cup \tilde{\mathcal X}_{k,2}^0) Bnk(Xk0)=Bnk(Xk,10X~k,20)
其中 B n k ( X k , 1 0 ∪ X ~ k , 2 0 ) \mathcal B^{n_k} (\mathcal X_{k,1}^0 \cup \tilde{\mathcal X}_{k,2}^0) Bnk(Xk,10X~k,20)可以通过定理4计算。

2.6 Pursuit Task Assignment

为了找到最优的任务分配来最大化抓捕到的evaders的数量,我们可以利用前面章节的算法首先计算barrier和pursuit winning region,然后通过检查evader初始位置是否位于 W P n k \mathcal{W}_P^{n_k} WPnk来检查其是否可以被某个pursuit coalition抓捕。

G = ( P , E , E ) G = (P, E, \mathcal E) G=(P,E,E)为一个二分图,由两个相互独立的节点集合 P P P E E E,以及无向的边集 E \mathcal E E。若pursuit coalition i i i 能够确保在 Ω play \Omega_{\text{play}} Ωplay或者 T \mathcal T T 抓捕evader E j E_j Ej,则 e i j ∈ E e_{ij}\in \mathcal E eijE,否则 e i j ∉ E e_{ij}\notin \mathcal E eij/E。因此,通过计算每个pursuit coalition的barrier,就可以计算出 E \mathcal E E中的所有边。

如果 E \mathcal E E的一个子集 M M M中的任意两条边都不连接在同一个节点上,则 M M M称为一个matching。为了抓捕最多的evader,对应的matching就需要包含最多的边数。需要注意的是,在最后的分配结果中,同一个pursuer不能同时出现在两个pursuit coalition中。为了解决这个问题,可以使用0-1整数规划求解。

引理5(Degeneration of Pursuit Coalition):对于任意包含 n k ≥ 3 n_k\geq 3 nk3的pursuit coalition k k k,如果存在一个evader E j E_j Ej使得 x E j 0   ∈ W P n k \bold x_{E_j}^0\ \in \mathcal W_P^{n_k} xEj0 WPnk,则必然存在一个 k k k的一个pursuit subcoalition k 1 k_1 k1满足 n k 1 = 2 n_{k_1}=2 nk1=2 x E j 0 ∈ W P n k 1 \bold x_{E_j}^0 \in \mathcal W_P^{n_{k_1}} xEj0WPnk1

  1. 引理5的证明可以通过定理3简单理解,定理三说明了barrier的每个部分最多只与两个pursuers的初始位置有关。
  2. 引理5说明,任意最大化evaders抓捕数量的matching都可以被简化为每个pursuit coalition最多包含两个pursuers的情况,因此只需再这样的pursuit coalition中找到一个最优的matching就能保证最多的evaders被抓捕。

由以上引理,下面只需要关注最多包含两个pursuers的pursuit coalition即可,论文将它称为Execution Pursuit Coalition,并且给出了如下的定义:

定义8(Execution Pursuit Coalition):如果pursuit coalition k k k 包含的pursuers数 n k n_k nk满足 n k = 1 n_k = 1 nk=1或者 n k = 2 n_k=2 nk=2,则 k k k称为一个execution pursuit coalition。

按照定义8,我们不难计算出,包含单个pursuer的coalition有 N p N_p Np个,包含两个pursuers的coalition有 N p ( N p − 1 ) / 2 N_p(N_p-1) / 2 Np(Np1)/2,那么可能的分配结果共有 N v = N e ( N p + N p ( N p − 1 ) / 2 ) N_v = N_e (N_p + N_p (N_p - 1)/ 2) Nv=Ne(Np+Np(Np1)/2)。进一步我们定义如下的数据结构来记录通过前述章节计算出的先验信息。

定义9(Prior Information Vector):对于 P i P_i Pi,定义 r i = [ r i 1 ( 1 ) , ⋯   , r i 1 ( N e ) ] ∈ R N e \bold r_i = [r_i^1(1), \cdots, r_i^1(N_e)]\in \mathbb{R}^{N_e} ri=[ri1(1),,ri1(Ne)]RNe,其中 j = 1 , ⋯   , N e j = 1, \cdots, N_e j=1,,Ne。若 x E j 0 ∈ W E 1 ( x P i 0 ) \bold x_{E_j}^0 \in \mathcal W_E^1 (\bold x_{P_i}^0) xEj0WE1(xPi0),则 r i 1 ( j ) = 0 r_i^1(j)=0 ri1(j)=0,即 P i P_i Pi不能保证在 E j E_j Ej到达 T \mathcal T T之前抓捕它;反之,则 r i 1 ( j ) = 1 r_i^1(j)=1 ri1(j)=1。类似地,定义 r i 1 , i 2 2 ( j ) = [ r i 1 , i 2 2 ( 1 ) , ⋯   , r i 1 , i 2 2 ( N e ) ] ∈ R N e \bold r_{i1, i2}^2 (j) = [r_{i1, i2}^2 (1),\cdots, r_{i1, i2}^2 (N_e)] \in \mathbb{R}^{N_e} ri1,i22(j)=[ri1,i22(1),,ri1,i22(Ne)]RNe,若 x E j 0 ∈ W E 2 ( x P i 1 0 ∪ x P i 2 0 ) \bold x_{E_j}^0 \in \mathcal W_E^2(\bold x_{P_{i1}}^0 \cup \bold x_{P_{i2}}^0) xEj0WE2(xPi10xPi20),则 r i 1 , i 2 2 ( j ) = 0 r_{i1, i2}^2 (j) =0 ri1,i22(j)=0;反之,则 r i 1 , i 2 2 ( j ) = 1 r_{i1, i2}^2 (j) = 1 ri1,i22(j)=1。定义 r = [ r 1 1 , ⋯   , r N p 1 , r 1 , 2 2 , ⋯   , r 1 , N p 2 , ⋯   , r 2 , 3 2 , ⋯   , r N p − 1 , N p 2 ] ∈ R N v \bold r = [\bold r_1^1,\cdots, \bold r_{N_p}^1, \bold r_{1,2}^2,\cdots, \bold r_{1,N_p}^2,\cdots, r_{2,3}^2, \cdots, \bold r_{N_p - 1, N_p}^2]\in \mathbb{R}^{N_v} r=[r11,,rNp1,r1,22,,r1,Np2,,r2,32,,rNp1,Np2]RNv为prior information vector。

s i 1 = [ s i 1 ( 1 ) , ⋯   , x i 1 ( N e ) ] ∈ R N e \bold s_i^1 = [s_i^1(1), \cdots, x_i^1 (N_e)] \in \mathbb R^{N_e} si1=[si1(1),,xi1(Ne)]RNe P i P_i Pi的策略向量, s i j = 1 s_i^j=1 sij=1表示分配 P i P_i Pi去拦截 E j E_j Ej,否则 s i j = 0 s_i^j = 0 sij=0。记 s i 1 , i 2 2 = [ s i 1 , i 2 2 ( 1 ) , ⋯   , s i 1 , i 2 2 ( N e ) ] ∈ R N e \bold s_{i_1, i_2}^2 = [s_{i_1, i_2}^2(1), \cdots, s_{i_1, i_2}^2(N_e)]\in \mathbb R^{N_e} si1,i22=[si1,i22(1),,si1,i22(Ne)]RNe为pursuit对 { P i 1 , P i 2 } \{P_{i1}, P_{i2}\} {Pi1,Pi2}的策略向量, s i 1 , i 2 2 ( j ) = 1 s_{i_1, i_2}^2(j)=1 si1,i22(j)=1表示 { P i 1 , P i 2 } \{P_{i1}, P_{i2}\} {Pi1,Pi2}被分配到 E j E_j Ej,否则 s i 1 , i 2 2 ( j ) = 0 s_{i_1, i_2}^2(j)=0 si1,i22(j)=0。为了确保同一pursuer不会被分配到两个evaders,有如下的不等式

∑ j = 1 N e s i 1 ( j ) ≤ 1 ∑ j = 1 N e s i 1 , i 2 2 ( j ) ≤ 1 \begin{aligned} &\sum_{j=1}^{N_e} s_i^1(j) \leq 1\\ &\sum_{j=1}^{N_e} s_{i_1, i_2}^2(j) \leq 1 \end{aligned} j=1Nesi1(j)1j=1Nesi1,i22(j)1

记所有execution pursuit coalitions的策略向量为 z = [ s 1 , s 2 ] T ∈ R N v × 1 \bold z = [\bold s^1, \bold s^2]^T \in \mathbb R^{N_v\times 1} z=[s1,s2]TRNv×1,其中 s 1 = [ s 1 1 , ⋯   , s N p 1 ] ∈ R N p N e \bold s^1 = [\bold s_1^1,\cdots, \bold s_{N_p}^1] \in \mathbb R^{N_p N_e} s1=[s11,,sNp1]RNpNe s 2 = [ s 1 , 2 2 , ⋯   , s 1 , N p 2 , s 2 , 3 2 , ⋯   , s N p − 1 , N p 2 ] ∈ R N e N p ( N p − 1 ) / 2 \bold s^2 = [\bold s_{1,2}^2,\cdots, \bold s_{1, N_p}^2, \bold s_{2,3}^2, \cdots, \bold s_{N_p - 1, N_p}^2]\in \mathbb R^{N_e N_p (N_p -1 )/2} s2=[s1,22,,s1,Np2,s2,32,,sNp1,Np2]RNeNp(Np1)/2。通过如下的定理5,可以求解出maximum matching。

定理5(Maximum Matching):考虑满足假设1,3,4的系统(1),给定 X p 0 \mathcal X_p^0 Xp0 X E 0 \mathcal X_E^0 XE0,pursuit team能够抓捕的最多的evaders数量 q q q可以由如下优化问题求解:
q = max ⁡ c T z s.t.  A 1 z ≤ b 1 A 2 z ≤ b 2 A 3 z ≤ b 3 z = [ s 1 , s 2 ] T = [ z ( 1 ) , ⋯   , z ( N v ) ] T z ( i ) ∈ { 0 , 1 } (50) \begin{aligned} q &= \max \bold c^T \bold z \\ \text{s.t.}\ &A_1\bold z\leq \bold b_1\\ &A_2\bold z \leq \bold b_2 \\ &A_3\bold z\leq \bold b_3 \\ &\bold z = [\bold s^1, \bold s^2]^T = [z(1),\cdots, z(N_v)]^T\\ &z(i)\in\{0,1\} \end{aligned} \tag{50} qs.t. =maxcTzA1zb1A2zb2A3zb3z=[s1,s2]T=[z(1),,z(Nv)]Tz(i){0,1}(50)
其中, c = ones ( N v , 1 ) \bold c = \text{ones}(N_v, 1) c=ones(Nv,1) b 1 = r T \bold b_1 = \bold r^T b1=rT A 1 = I N v A_1 = I_{N_v} A1=INv b 2 = ones ( N e , 1 ) \bold b_2 = \text{ones}(N_e, 1) b2=ones(Ne,1) A 2 = ones ( 1 , N v / N e ) ⊗ I N e A_2 = \text{ones}(1, N_v/N_e)\otimes I_{N_e} A2=ones(1,Nv/Ne)INe b 3 = ones ( N p , 1 ) \bold b_3 = \text{ones}(N_p, 1) b3=ones(Np,1) A 3 A_3 A3可以由如下的算法2得到。Maximum matching z ∗ = argmax z ( c T z ) \bold z^* = \text{argmax}_{\bold z} (\bold c^T \bold z) z=argmaxz(cTz)
在这里插入图片描述

  1. 最大抓捕数 q q q是唯一的,而maximum matching z ∗ \bold z^* z可能有多个解。原问题是一个带有 ( 2 N p − 1 ) × N e (2^{N_p}-1)\times N_e (2Np1)×Ne个约束的二分匹配问题,是一个NP问题。但是通过定理5求解的问题相较于原问题被大幅简化,只具有 N v N_v Nv个变量和 N v + N e + N p N_v + N_e + N_p Nv+Ne+Np个不等式约束。如果 r \bold r r具有很多零元素,则式(50)中的第一个不等式约束还会更加简化。

定义10(Maximum Matching Pairs):对于一个maximum matching z ∗ = [ s 1 ∗ , s 2 ∗ ] T \bold z^* = [\bold s^{1*}, \bold s^{2*}]^T z=[s1,s2]T,定义如下的matching pairs的集合,分别用来表示所有一对一的matching pairs和二对一的matching pairs。

M 1 ( z ∗ ) = { ( i , j ) ∣ s i 1 ∗ ( j ) = 1 , 1 ≤ i ≤ N p , 1 ≤ j ≤ N e } M 2 ( z ∗ ) = { ( i 1 , i 2 , j ) ∣ s i 1 , i 2 2 ∗ ( j ) = 1 , 1 ≤ i 1 < i 2 ≤ N p , 1 ≤ j ≤ N e } . \begin{aligned} M^{1}(\bold{z}^{*})& =\left\{(i,j)\big|s_i^{1*}(j)=1,1\leq i\leq N_p,1\leq j\leq N_e\right\} \\ M^{2}(\bold z^{*})&=\left\{(i1,i2,j)\big|s_{i1,i2}^{2*}(j)=1,1\leq i1<i2\leq N_p\right. ,\left.1\leq j\leq N_{e}\right\}. \end{aligned} M1(z)M2(z)={(i,j) si1(j)=1,1iNp,1jNe}={(i1,i2,j) si1,i22(j)=1,1i1<i2Np,1jNe}.

三、仿真结果

假设 α = 0.7 \alpha = 0.7 α=0.7 v P = 1 m/s v_P = 1 \text{m/s} vP=1m/s v E = 0.7 m/s v_E = 0.7 \text{m/s} vE=0.7m/s

Case 1

N p = 5 N_p = 5 Np=5 N e = 6 N_e = 6 Ne=6。Fig. 9展示了所有pursuit coalitions的barrier和winning region。Fig. 9(a)-(d)分别展示了包含1-4个pursuers的pursuit coalitions。共计算了31个barriers,耗时0.984s。主要耗时在于计算barriers上的点和计算他们的交集。Fig. 9(e)展示了最终计算的barrier,并计算了计算了maximum matching,包括两个1对1的matching pairs和一个2对1的matching pair。求解0-1规划耗时0.025s。

在这里插入图片描述

Case 2

N p = 3 N_p = 3 Np=3 N e = 2 N_e = 2 Ne=2。这个例子是为了说明论文中所述方法不是平凡的(trivial)并且不同于分配两个最近的pursuer到每个evader。Fig. 10(a)给出了仅有 P 1 P_1 P1、仅有 P 2 P_2 P2 P 1 − P 2 P_1-P_2 P1P2的barrier,可以观察到,如果evader初始位于蓝色区域内,则它只能被 P 1 − P 2 P_1-P_2 P1P2共同抓捕。在Fig. 10(b)中的情况是类似的,如果evader初始位于蓝色区域内,则它只能被 P 1 − P 2 − P 3 P_1-P_2-P_3 P1P2P3共同抓捕。

在这种情况下, E 2 E_2 E2一定能够到达 Ω tar \Omega_{\text{tar}} Ωtar E 1 E_1 E1能够被 P 1 − P 3 P_1-P_3 P1P3抓捕。尽管 P 1 P_1 P1 P 2 P_2 P2都比 P 3 P_3 P3 E 1 E_1 E1的距离更近,但是 P 3 P_3 P3仍然被分配到了 E 1 E_1 E1。同样的,尽管 P 3 P_3 P3 P 2 P_2 P2距离 E 2 E_2 E2更近,但是 P 3 P_3 P3仍然被分配到了更远的 E 1 E_1 E1。这说明论文所述方法不是简单地将最近的两个pursuer分配到每个evader。

这种情况计算barriers耗时0.023s,计算maximum matching耗时0.012s。

在这里插入图片描述

四、结论

4.1 论文的主要贡献

  • 单pursuit coalition对单个evader的barrier的解析计算方法
  • 多pursuit coalitions对单个evader的barriers的解析计算方法
  • pursuers位于target region时的barrier解析计算方法
  • pursuit coalitions到evaders的assignment的0-1规划方法。
  • 10
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值