稠密环境下编队飞行的分布式群轨迹优化(二)
原文章题目:Distributed Swarm Trajectory Optimization for Formation Flight in
Dense Environments
作者:Lun Quan, Longji Yin, Chao Xu, and Fei Gao
出处:2022 International Conference on Robotics and Automation (ICRA)
原文下载链接:点击下载
背景介绍部分在这里:稠密环境下编队飞行的分布式群轨迹优化(一)
实验部分介绍在这里:稠密环境下编队飞行的分布式集群轨迹优化(三)
三、微分编队相似性指标
N
N
N个机器人的编队由无向图
G
=
(
V
,
E
)
{\cal G} = ({\cal V},{\cal E})
G=(V,E)建模,其中
V
=
{
1
,
2
,
.
.
.
,
N
}
{\cal V} = \{ 1,2,...,N\}
V={1,2,...,N}是顶点集,
E
⊂
V
×
V
{\cal E} \subset {\cal V} \times {\cal V}
E⊂V×V是边缘。在图
G
{\cal G}
G中,顶点
i
i
i代表位置向量
p
i
=
[
x
i
,
y
i
,
z
i
]
∈
3
{{\bf{p}}_i} = [{x_i},{y_i},{z_i}] \in {^3}
pi=[xi,yi,zi]∈3的第
i
t
h
{i^{th}}
ith个机器人。连接顶点
i
∈
V
i \in {\cal V}
i∈V和顶点
j
∈
V
j \in {\cal V}
j∈V的边
e
i
j
∈
E
{e_{ij}} \in {\cal E}
eij∈E意味着机器人
i
i
i和
j
j
j可以测量彼此之间的几何距离。在我们的工作中,每个机器人都与所有其他机器人进行通信,因此形成图
G
{\cal G}
G是完整的。图
G
{\cal G}
G的每条边都与一个非负数作为权重相关联。在这项工作中,边
e
i
j
{e_{ij}}
eij的权重由下式给出:
w
i
j
=
∥
p
i
−
p
j
∥
2
,
(
i
,
j
)
∈
E
,
(
1
)
{w_{ij}} = {\left\| {{{\bf{p}}_i} - {{\bf{p}}_j}} \right\|^2},\quad (i,j) \in {\cal E},(1)
wij=∥pi−pj∥2,(i,j)∈E,(1)
其中
∥
⋅
∥
\parallel \cdot \parallel
∥⋅∥表示欧几里德范数。现在确定了编队图
G
{\cal G}
G的邻接矩阵
A
∈
R
N
×
N
{\bf{A}} \in \Bbb R {^{N \times N}}
A∈RN×N和度矩阵
D
∈
R
N
×
N
{\bf{D}} \in \Bbb R{^{N \times N}}
D∈RN×N。因此,相应的拉普拉斯矩阵由下式给出:
L
=
D
−
A
.
(
2
)
{\bf{L}} = {\bf{D}} - {\bf{A}}.(2)
L=D−A.(2)
利用上述矩阵,图
G
{\cal G}
G的对称归一化拉普拉斯矩阵定义为
L
^
=
D
−
1
/
2
L
D
−
1
/
2
=
I
−
D
−
1
/
2
A
D
−
1
/
2
,
(
3
)
\widehat {\bf{L}} = {{\bf{D}}^{ - 1/2}}{\bf{L}}{{\bf{D}}^{ - 1/2}} = {\bf{I}} - {{\bf{D}}^{ - 1/2}}{\bf{A}}{{\bf{D}}^{ - 1/2}},(3)
L
=D−1/2LD−1/2=I−D−1/2AD−1/2,(3)
其中
I
∈
R
N
×
N
{\bf{I}} \in \Bbb R{^{N \times N}}
I∈RN×N是单位矩阵。
作为图表示矩阵,拉普拉斯包含有关图结构的信息[25]。为了实现所需的群体形成,我们提出了一种形成相似距离度量:
f
=
∥
L
^
−
L
^
d
e
s
∥
F
2
=
t
r
{
(
L
^
−
L
^
d
e
s
)
T
(
L
^
−
L
^
d
e
s
)
}
,
(
4
)
f = \left\| {\widehat {\bf{L}} - {{\widehat {\bf{L}}}_{des}}} \right\|_F^2 = {\mathop{\rm tr}\nolimits} \left\{ {{{\left( {\widehat {\bf{L}} - {{\widehat {\bf{L}}}_{{\rm{des }}}}} \right)}^T}\left( {\widehat {\bf{L}} - {{\widehat {\bf{L}}}_{{\rm{des }}}}} \right)} \right\},(4)
f=
L
−L
des
F2=tr{(L
−L
des)T(L
−L
des)},(4)
其中
t
r
{
⋅
}
tr\{ \cdot \}
tr{⋅}表示矩阵的迹,
L
^
\widehat {\bf{L}}
L
是当前群体编队的对称归一化拉普拉斯算子,
L
^
d
e
s
{\widehat {\bf{L}}_{{\rm{des }}}}
L
des是期望编队的对应项。弗罗贝尼乌斯范数
∥
⋅
∥
F
\parallel \cdot {\parallel _F}
∥⋅∥F用于我们的距离度量。
f
f
f 对于编队的平移和旋转本身是不变的,因为相应的图形是由机器人位置之间的绝对距离加权的。缩放不变性是通过公式(3)中的度矩阵对图拉普拉斯算子进行归一化来实现的。
我们的度量对于每个机器人的位置在分析上是可微的。对于机器人
i
i
i,我们使用其
n
n
n个相邻边的权重
{
e
i
1
,
e
i
2
,
.
.
.
,
,
e
i
n
}
\{ {e_{i1}},{e_{i2}},...,,{e_{in}}\}
{ei1,ei2,...,,ein}形成权重向量
w
i
=
[
w
i
1
,
w
i
2
,
.
.
.
,
,
w
i
n
]
T
{{\bf{w}}_i} = {[{w_{i1}},{w_{i2}},...,,{w_{in}}]^T}
wi=[wi1,wi2,...,,win]T 。根据链式求导法则,
f
f
f相对于的梯度
p
i
{{\bf{p}}_i}
pi可写为
w
i
=
[
w
i
1
,
w
i
2
,
.
.
.
,
,
w
i
n
]
T
(
5
)
{{\bf{w}}_i} = {[{w_{i1}},{w_{i2}},...,,{w_{in}}]^T}(5)
wi=[wi1,wi2,...,,win]T(5)
根据我们的度量(4),
f
f
f相对于每个权重
w
i
j
{w_{ij}}
wij的梯度可以计算如下
∂
f
∂
w
i
j
=
t
r
{
(
∂
f
∂
L
^
)
T
(
∂
L
^
∂
w
i
j
)
}
,
(
6
)
\frac{{\partial f}}{{\partial {w_{ij}}}} = tr\{ {(\frac{{\partial f}}{{\partial {\bf{\hat L}}}})^T}(\frac{{\partial {\bf{\hat L}}}}{{\partial {w_{ij}}}})\} ,(6)
∂wij∂f=tr{(∂L^∂f)T(∂wij∂L^)},(6)
其中
∂
f
∂
L
^
=
∂
∣
∣
L
^
−
L
^
d
e
s
∣
∣
F
2
∂
L
^
=
2
(
L
^
−
L
^
d
e
s
)
,
(
7
)
\frac{{\partial f}}{{\partial {\bf{\hat L}}}} = \frac{{\partial ||{\bf{\hat L}} - {{{\bf{\hat L}}}_{des}}||_F^2}}{{\partial {\bf{\hat L}}}} = 2({\bf{\hat L}} - {{\bf{\hat L}}_{des}}),(7)
∂L^∂f=∂L^∂∣∣L^−L^des∣∣F2=2(L^−L^des),(7)
∂
L
^
∂
w
i
j
=
−
∂
(
D
−
1
/
2
A
D
−
1
/
2
)
∂
w
i
j
.
(
8
)
\frac{{\partial {\bf{\hat L}}}}{{\partial {w_{ij}}}} = - \frac{{\partial ({{\bf{D}}^{ - 1/2}}{\bf{A}}{{\bf{D}}^{ - 1/2}})}}{{\partial {w_{ij}}}}. (8)
∂wij∂L^=−∂wij∂(D−1/2AD−1/2).(8)
那么梯度
∂
f
/
∂
w
i
\partial f/\partial {{\bf{w}}_i}
∂f/∂wi可以写为
∂
f
/
∂
w
i
=
[
∂
f
/
∂
w
i
1
,
∂
f
/
∂
w
i
2
,
.
.
.
,
∂
f
/
∂
w
i
n
]
T
.
(
9
)
\partial f/\partial {{\bf{w}}_i} = {[\partial f/\partial {w_{i1}},\partial f/\partial {w_{i2}},...,\partial f/\partial {w_{in}}]^T}.(9)
∂f/∂wi=[∂f/∂wi1,∂f/∂wi2,...,∂f/∂win]T.(9)
对于
∂
w
i
/
∂
p
i
\partial {{\bf{w}}_i}/\partial {{\bf{p}}_i}
∂wi/∂pi ,由于权重函数(1)是可微的,因此可以很容易地导出雅可比行列式。图2显示了正方形编队的度量和梯度的轮廓。
四、编队飞行时空轨迹优化
A.轨迹表示
在这项工作中,我们采用文献[26]中MINCO表示。这是一种最小控制工作量的多项式轨迹类,用于对平坦输出轨迹进行时空变形。
Ξ
M
I
N
C
O
=
{
p
(
t
)
:
[
0
,
T
Σ
]
↦
R
m
∣
c
=
C
(
q
,
T
)
,
q
∈
R
m
(
M
−
1
)
,
T
∈
R
>
0
M
}
,
(
10
)
{\Xi _{MINCO}} = \{ p(t):[0,{T_\Sigma }] \mapsto \Bbb R {^m}|{\bf{c}} = C({\bf{q}},{\bf{T}}),{\bf{q}} \in \Bbb R {^{m(M - 1)}},{\bf{T}} \in \Bbb R _{ > 0}^M\} , (10)
ΞMINCO={p(t):[0,TΣ]↦Rm∣c=C(q,T),q∈Rm(M−1),T∈R>0M},(10)
其中,
c
=
(
c
1
T
,
⋯
,
c
M
T
)
T
{\bf{c}} = {(c_1^T, \cdots ,c_M^T)^T}
c=(c1T,⋯,cMT)T为多项式系数,
q
=
(
q
1
,
⋯
,
q
M
−
1
)
{\bf{q}} = ({q_1}, \cdots ,{q_{M - 1}})
q=(q1,⋯,qM−1)中间点,
T
=
(
T
1
,
⋯
,
T
M
)
T
{\bf{T}} = {({T_1}, \cdots ,{T_M})^T}
T=(T1,⋯,TM)T时间向量,
C
(
q
,
T
)
C({\bf{q}},{\bf{T}})
C(q,T)是根据文献[26]中的定理2构造的参数映射,
T
Σ
=
∑
M
i
=
1
T
i
{T_\Sigma } = \sum \limits_M^{i = 1} {T_i}
TΣ=M∑i=1Ti是总时间。
n
n
n维
M
M
M段轨迹
p
(
t
)
p(t)
p(t)定义为:
p
(
t
)
=
p
i
(
t
−
t
i
−
1
)
,
∀
t
∈
[
t
i
−
1
,
t
i
)
,
(
11
)
p(t) = {p_i}(t - {t_{i - 1}}),\quad \forall t \in [{t_{i - 1}},{t_i}),(11)
p(t)=pi(t−ti−1),∀t∈[ti−1,ti),(11)
第
i
t
h
{i^{th}}
ith块轨迹由5次多项式(即
N
=
5
N=5
N=5)表示
p
i
(
t
)
=
c
i
T
β
(
t
)
,
∀
t
∈
[
0
,
T
i
]
,
(
12
)
{p_i}(t) = c_i^T\beta (t),\quad \forall t \in [0,{T_i}],(12)
pi(t)=ciTβ(t),∀t∈[0,Ti],(12)
其中,
c
i
∈
R
6
×
m
{c_i} \in {\Bbb R^{6 \times m}}
ci∈R6×m是系数矩阵,
β
(
t
)
=
[
1
,
t
,
.
.
.
,
t
N
]
T
\beta (t) = {[1,t,...,{t^{\rm{N}}}]^T}
β(t)=[1,t,...,tN]T是自然基,
T
i
=
t
i
−
t
i
−
1
{T_i} = {t_i} - {t_{i - 1}}
Ti=ti−ti−1是第
i
t
h
{i^{th}}
ith块的时间分配。
MINCO由
(
q
,
T
)
({\bf{q}},{\bf{T}})
(q,T)唯一确定。并且参数
c
=
C
(
q
,
T
)
{\bf{c}} = C({\bf{q}},{\bf{T}})
c=C(q,T)映射以线性时间和空间复杂度将轨迹表示
(
c
,
T
)
({\bf{c}},{\bf{T}})
(c,T)转换为
(
q
,
T
)
({\bf{q}},{\bf{T}})
(q,T),这使得任何二阶连续成本函数
J
(
c
,
T
)
J({\bf{c}},{\bf{T}})
J(c,T)用
J
~
(
q
,
T
)
\tilde J({\bf{q}},{\bf{T}})
J~(q,T)表示。因此,可以分别通过
∂
J
~
/
∂
q
\partial \tilde J/\partial {\bf{q}}
∂J~/∂q和
∂
J
~
/
∂
T
\partial \tilde J/\partial {\bf{T}}
∂J~/∂T求得
∂
J
/
∂
c
\partial J/\partial {\bf{c}}
∂J/∂c和
∂
J
/
∂
T
\partial J/\partial {\bf{T}}
∂J/∂T。
特别是,为了处理时间积分约束
ψ
(
p
(
t
)
,
⋯
,
p
(
3
)
(
t
)
)
≺
‾
0
\psi (p(t), \cdots ,{p^{(3)}}(t))\underline \prec {\bf{0}}
ψ(p(t),⋯,p(3)(t))≺0,例如避免碰撞和动力学可行性,我们将它们转换为有限维约束
ψ
(
p
^
i
,
j
)
\psi ({\hat p_{i,j}})
ψ(p^i,j)通过对轨迹上的约束点
p
^
i
,
j
=
p
i
(
(
j
/
κ
i
)
⋅
T
i
)
{\hat p_{i,j}} = {p_i}((j/{\kappa _i}) \cdot {T_i})
p^i,j=pi((j/κi)⋅Ti)进行采样,其中
κ
i
{\kappa _i}
κi是第
i
t
h
{i^{th}}
ith块上的采样点。
B.优化问题的构建
我们将编队飞行的轨迹生成公式化为无约束优化问题:
min
c
,
T
[
J
e
,
J
t
,
J
o
,
J
f
,
J
r
,
J
d
,
J
u
]
⋅
λ
,
(
13
)
\mathop {\min }\limits_{{\bf{c}},{\bf{T}}} \left[ {{J_e},{J_t},{J_o},{J_f},{J_r},{J_d},{J_u}} \right] \cdot \lambda ,(13)
c,Tmin[Je,Jt,Jo,Jf,Jr,Jd,Ju]⋅λ,(13)
其中,
λ
\lambda
λ是权衡每个成本函数的权重向量。
1)平滑度惩罚
J
e
{J_e}
Je:第
i
t
h
{i^{th}}
ith块轨迹的三阶控制输入及其梯度写为:
J
e
=
∫
0
T
i
∥
p
i
(
3
)
(
t
)
∥
2
d
t
,
(
14
)
{J_e} = \smallint _0^{{T_i}}\parallel p_i^{(3)}(t){\parallel ^2}dt,(14)
Je=0∫Ti∥pi(3)(t)∥2dt,(14)
∂
J
e
∂
c
i
=
2
(
∫
0
T
i
β
(
3
)
(
t
)
β
(
3
)
(
t
)
T
d
t
)
c
i
,
(
15
)
\frac{{\partial {J_e}}}{{\partial {c_i}}} = 2\left( {\smallint _0^{{T_i}}{\beta ^{(3)}}(t){\beta ^{(3)}}{{(t)}^T}dt} \right){c_i},(15)
∂ci∂Je=2(0∫Tiβ(3)(t)β(3)(t)Tdt)ci,(15)
∂
J
e
∂
T
i
=
c
i
T
β
(
3
)
(
T
i
)
β
(
3
)
(
T
i
)
T
c
i
.
(
16
)
\frac{{\partial {J_e}}}{{\partial {T_i}}} = c_i^T{\beta ^{(3)}}({T_i}){\beta ^{(3)}}{({T_i})^T}{c_i}.(16)
∂Ti∂Je=ciTβ(3)(Ti)β(3)(Ti)Tci.(16)
2)总时间惩罚
J
t
{J_t}
Jt:为了保证轨迹的光滑性,我们最小化总时间
J
t
=
∑
M
i
=
1
T
{J_t} = \sum \limits_M^{i = 1} T
Jt=M∑i=1T。梯度由
∂
J
t
/
∂
c
=
0
\partial {J_{\rm{t}}}/\partial {\bf{c}} = 0
∂Jt/∂c=0和
∂
J
t
/
∂
T
=
1
\partial {J_{\rm{t}}}/\partial {\bf{T}} = 1
∂Jt/∂T=1求出。
3)碰撞项惩罚
J
o
{J_o}
Jo:受文献[27]的启发,避障惩罚
J
o
{J_o}
Jo使用欧几里得符号距离场(ESDF)计算。选取靠近障碍物的约束点:
ψ
o
(
p
^
i
,
j
)
=
{
d
t
h
r
−
d
(
p
^
i
,
j
)
,
if
d
(
p
^
i
,
j
)
<
d
t
h
r
0
,
if
d
(
p
^
i
,
j
)
≥
d
t
h
r
(
17
)
{\psi _o}({\hat p_{i,j}})= \begin{cases} {{d_{thr}} - d({{\hat p}_{i,j}})}, & \text{if ${d({{\hat p}_{i,j}}) < {d_{thr}}}$}\\ 0,& \text{if ${d({{\hat p}_{i,j}}) \ge {d_{thr}}}$} \end{cases}(17)
ψo(p^i,j)={dthr−d(p^i,j),0,if d(p^i,j)<dthrif d(p^i,j)≥dthr(17)
其中,
d
t
h
r
{d_{thr}}
dthr是安全阈值,
d
(
p
^
i
,
j
)
d({\hat p_{i,j}})
d(p^i,j)是所考虑的点与其周围最近的障碍物之间的距离。然后通过计算采样约束函数的加权和得到避障惩罚:
J
o
=
T
i
κ
i
∑
j
=
0
κ
i
ω
ˉ
j
max
{
ψ
o
(
p
^
i
,
j
)
,
0
}
3
,
(
18
)
{J_o} = \frac{{{T_i}}}{{{\kappa _i}}} \sum \limits_{j = 0}^{{\kappa _i}} {\bar \omega _j}\max {\{ {\psi _o}({\hat p_{i,j}}),0\} ^3},(18)
Jo=κiTij=0∑κiωˉjmax{ψo(p^i,j),0}3,(18)
其中
(
ω
ˉ
0
,
ω
ˉ
1
,
⋯
,
ω
ˉ
κ
i
−
1
,
ω
ˉ
κ
i
)
=
(
1
/
2
,
1
,
⋯
,
1
,
1
/
2
)
({{\bar \omega }_0},{{\bar \omega }_1}, \cdots ,{{\bar \omega }_{{\kappa _i} - 1}},{{\bar \omega }_{{\kappa _i}}}) = (1/2,1, \cdots ,1,1/2)
(ωˉ0,ωˉ1,⋯,ωˉκi−1,ωˉκi)=(1/2,1,⋯,1,1/2)是遵循梯形规则的正交系数,如文献[28]。
J
o
{J_o}
Jo相对于
c
i
{c_i}
ci和
T
i
T_i
Ti的梯度具体如下:
∂
J
o
∂
c
i
=
∂
J
o
∂
ψ
o
∂
ψ
o
∂
c
i
,
(
19
)
\frac{{\partial {J_o}}}{{\partial {c_i}}} = \frac{{\partial {J_o}}}{{\partial {\psi _o}}}\frac{{\partial {\psi _o}}}{{\partial {c_i}}}, (19)
∂ci∂Jo=∂ψo∂Jo∂ci∂ψo,(19)
∂
J
o
∂
T
i
=
J
o
T
i
+
∂
J
o
∂
ψ
o
∂
ψ
o
∂
t
∂
t
∂
T
i
,
(
20
)
\frac{{\partial {J_o}}}{{\partial {T_i}}} = \frac{{{J_o}}}{{{T_i}}} + \frac{{\partial {J_o}}}{{\partial {\psi _o}}}\frac{{\partial {\psi _o}}}{{\partial t}}\frac{{\partial t}}{{\partial {T_i}}},(20)
∂Ti∂Jo=TiJo+∂ψo∂Jo∂t∂ψo∂Ti∂t,(20)
∂
t
∂
T
i
=
j
κ
i
,
t
=
j
κ
i
T
i
,
(
21
)
\frac{{\partial t}}{{\partial {T_i}}} = \frac{j}{{{\kappa _i}}},\quad t = \frac{j}{{{\kappa _i}}}{T_i},(21)
∂Ti∂t=κij,t=κijTi,(21)
其中,
t
t
t 是相对时间。对于
d
(
p
^
i
,
j
)
<
d
t
h
r
d({\hat p_{i,j}}) < {d_{thr}}
d(p^i,j)<dthr的情况,梯度由下式给出
∂
ψ
o
∂
c
i
=
−
β
(
t
)
∇
d
T
,
∂
ψ
o
∂
t
=
−
∇
d
T
p
˙
(
t
)
,
(
22
)
\frac{{\partial {\psi _o}}}{{\partial {c_i}}} = - \beta (t)\nabla {d^T},\quad \frac{{\partial {\psi _o}}}{{\partial t}} = - \nabla {d^T}\dot p(t),(22)
∂ci∂ψo=−β(t)∇dT,∂t∂ψo=−∇dTp˙(t),(22)
其中,
∇
d
\nabla d
∇d是ESDF在
p
^
i
,
j
{\hat p_{i,j}}
p^i,j中的梯度。否则,梯度为
∂
ψ
o
/
∂
c
i
=
0
,
∂
ψ
o
/
∂
t
=
0
\partial {\psi _o}/\partial {c_i} = {\bf{0}}, \partial {\psi _o}/\partial t = 0
∂ψo/∂ci=0,∂ψo/∂t=0。
4)集群编队惩罚
J
f
{J_f}
Jf:在第三节中,我们设计了一个可微分度量来量化群体形成之间的相似距离。在优化中,当前地层与期望地层之间的相似性误差通过
ψ
f
=
f
(
p
(
t
)
,
⋃
Φ
p
ϕ
(
τ
)
)
f
(
⋅
)
{\psi _f} = f(p(t),\bigcup\nolimits_\Phi {{p_\phi }(\tau )} )f\left( \cdot \right)
ψf=f(p(t),⋃Φpϕ(τ))f(⋅)来测量,其中
f
(
⋅
)
f\left( \cdot \right)
f(⋅)在(4)中详细说明,
Φ
\Phi
Φ表示集合其他智能体的。
由于
J
f
{J_f}
Jf涉及其他智能体的轨迹,因此我们需要处理自身轨迹的相对时间
t
=
j
T
i
/
κ
i
t = j{T_i}/{\kappa _i}
t=jTi/κi和其他智能体轨迹的全局时间戳
τ
=
T
1
+
.
.
.
+
T
i
−
1
+
j
T
i
/
κ
i
\tau = {T_1} + ... + {T_{i - 1}} + j{T_i}/{\kappa _i}
τ=T1+...+Ti−1+jTi/κi。
J
f
{J_f}
Jf考虑任意
1
≤
l
≤
i
1 \le l \le i
1≤l≤i的先前时间 ,并用公式表示:
J
f
=
T
i
κ
i
∑
κ
i
j
=
0
ω
ˉ
j
max
{
ψ
f
(
p
(
t
)
,
⋃
Φ
p
ϕ
(
τ
)
)
,
0
}
3
.
(
23
)
{J_f} = \frac{{{T_i}}}{{{\kappa _i}}} \sum \limits_{{\kappa _i}}^{j = 0} {\bar \omega _j}\max {\{ {\psi _f}(p(t),\bigcup\limits_\Phi {{p_\phi }(\tau )} ),0\} ^3}.(23)
Jf=κiTiκi∑j=0ωˉjmax{ψf(p(t),Φ⋃pϕ(τ)),0}3.(23)
J
f
{J_f}
Jf相对于
c
i
{c_i}
ci和
T
l
{T_l}
Tl的梯度具体如下
∂
J
f
∂
c
i
=
∂
J
f
∂
ψ
f
∂
ψ
f
∂
c
i
,
(
24
)
\frac{{\partial {J_f}}}{{\partial {c_i}}} = \frac{{\partial {J_f}}}{{\partial {\psi _f}}}\frac{{\partial {\psi _f}}}{{\partial {c_i}}}, (24)
∂ci∂Jf=∂ψf∂Jf∂ci∂ψf,(24)
∂
J
f
∂
T
l
=
J
f
T
l
+
∂
J
f
∂
ψ
f
∂
ψ
f
∂
T
l
.
(
25
)
\frac{{\partial {J_f}}}{{\partial {T_l}}} = \frac{{{J_f}}}{{{T_l}}} + \frac{{\partial {J_f}}}{{\partial {\psi _f}}}\frac{{\partial {\psi _f}}}{{\partial {T_l}}}.(25)
∂Tl∂Jf=TlJf+∂ψf∂Jf∂Tl∂ψf.(25)
为了求出
∂
ψ
f
/
∂
T
l
\partial {\psi _f}/\partial {T_l}
∂ψf/∂Tl,需要
ψ
f
{\psi _f}
ψf对
t
t
t 和
τ
\tau
τ 进行求导:
∂
ψ
f
∂
T
l
=
∂
ψ
f
∂
t
∂
t
∂
T
l
+
∂
ψ
f
∂
τ
∂
τ
∂
T
l
,
(
26
)
\frac{{\partial {\psi _f}}}{{\partial {T_l}}} = \frac{{\partial {\psi _f}}}{{\partial t}}\frac{{\partial t}}{{\partial {T_l}}} + \frac{{\partial {\psi _f}}}{{\partial \tau }}\frac{{\partial \tau }}{{\partial {T_l}}}, (26)
∂Tl∂ψf=∂t∂ψf∂Tl∂t+∂τ∂ψf∂Tl∂τ,(26)
∂
t
∂
T
l
=
{
j
κ
i
,
if
l
=
i
,
0
,
if
l
<
i
,
∂
τ
∂
T
l
=
{
j
κ
i
,
if
l
=
i
,
0
,
if
l
<
i
(
27
)
\frac{{\partial t}}{{\partial {T_l}}}= \begin{cases} {\frac{j}{{{\kappa _i}}}}, & \text{if ${l = i,}$}\\ 0,& \text{if ${l < i}$} \end{cases}, \frac{{\partial \tau }}{{\partial {T_l}}}= \begin{cases} {\frac{j}{{{\kappa _i}}}}, & \text{if ${l = i,}$}\\ 0,& \text{if ${l < i}$} \end{cases}(27)
∂Tl∂t={κij,0,if l=i,if l<i,∂Tl∂τ={κij,0,if l=i,if l<i(27)
ψ
f
{\psi _f}
ψf相对于
c
i
{c_i}
ci、
t
t
t 和
τ
\tau
τ 的梯度由下式给出
∂
ψ
f
∂
c
i
=
∂
ψ
f
∂
p
(
t
)
∂
p
(
t
)
∂
c
i
,
(
28
)
\frac{{\partial {\psi _f}}}{{\partial {c_i}}} = \frac{{\partial {\psi _f}}}{{\partial p(t)}}\frac{{\partial p(t)}}{{\partial {c_i}}}, (28)
∂ci∂ψf=∂p(t)∂ψf∂ci∂p(t),(28)
∂
ψ
f
∂
t
=
∂
ψ
f
∂
p
(
t
)
∂
p
(
t
)
∂
t
=
∂
ψ
f
∂
p
(
t
)
p
˙
(
t
)
,
(
29
)
\frac{{\partial {\psi _f}}}{{\partial t}} = \frac{{\partial {\psi _f}}}{{\partial p(t)}}\frac{{\partial p(t)}}{{\partial t}} = \frac{{\partial {\psi _f}}}{{\partial p(t)}}\dot p(t), (29)
∂t∂ψf=∂p(t)∂ψf∂t∂p(t)=∂p(t)∂ψfp˙(t),(29)
∂
ψ
f
∂
τ
=
∑
Φ
∂
ψ
f
∂
p
ϕ
(
τ
)
∂
p
ϕ
(
τ
)
∂
τ
=
∑
Φ
∂
ψ
f
∂
p
ϕ
(
τ
)
p
˙
ϕ
(
τ
)
,
(
30
)
\frac{{\partial {\psi _f}}}{{\partial \tau }} = \sum \limits_\Phi \frac{{\partial {\psi _f}}}{{\partial {p_\phi }(\tau )}}\frac{{\partial {p_\phi }(\tau )}}{{\partial \tau }} = \sum \limits_\Phi \frac{{\partial {\psi _f}}}{{\partial {p_\phi }(\tau )}}{\dot p_\phi }(\tau ),(30)
∂τ∂ψf=Φ∑∂pϕ(τ)∂ψf∂τ∂pϕ(τ)=Φ∑∂pϕ(τ)∂ψfp˙ϕ(τ),(30)
其中
ψ
f
{\psi _f}
ψf对
p
(
t
)
p(t)
p(t)和
p
ϕ
(
τ
)
{p_\phi }(\tau )
pϕ(τ) 的梯度见 (5)。
5)集群编队无人机间碰撞惩罚
J
r
{J_r}
Jr:我们惩罚在全局时间戳 处接近其他智能体轨迹的约束点。因此,群体相互回避的成本函数定义为
J
r
=
∑
Φ
T
i
κ
i
∑
κ
i
j
=
0
ω
ˉ
j
max
{
ψ
r
ϕ
(
p
(
t
)
,
τ
)
,
0
}
3
,
(
31
)
{{J_r} = \sum \limits_\Phi \frac{{{T_i}}}{{{\kappa _i}}}\sum \limits_{{\kappa _i}}^{j = 0} {{\bar \omega }_j}\max {{\{ {\psi _{{r_\phi }}}(p(t),\tau ),0\} }^3},}(31)
Jr=Φ∑κiTiκi∑j=0ωˉjmax{ψrϕ(p(t),τ),0}3,(31)
ψ
r
ϕ
(
p
(
t
)
,
τ
)
=
D
r
2
−
d
(
p
(
t
)
,
p
ϕ
(
τ
)
)
2
,
(
32
)
{\psi _{{r_\phi }}}(p(t),\tau ) = D_r^2 - d{(p(t),{p_\phi }(\tau ))^2}, (32)
ψrϕ(p(t),τ)=Dr2−d(p(t),pϕ(τ))2,(32)
d
(
p
(
t
)
,
p
ϕ
(
τ
)
)
=
∥
p
(
t
)
−
p
ϕ
(
τ
)
∥
,
(
33
)
d(p(t),{p_\phi }(\tau )) = \parallel p(t) - {p_\phi }(\tau )\parallel , (33)
d(p(t),pϕ(τ))=∥p(t)−pϕ(τ)∥,(33)
其中,
D
r
D_r
Dr 是每个智能体之间的距离。
J
r
{J_r}
Jr相对于
c
i
c_i
ci 和
T
l
T_l
Tl 的梯度与(24)和(25)相似,
∂
ψ
r
ϕ
/
∂
T
l
\partial {\psi _{{r_\phi }}}/\partial {T_l}
∂ψrϕ/∂Tl与(26)相同。当
D
r
2
≥
d
(
p
(
t
)
,
p
ϕ
(
τ
)
)
2
{\rm{D}}_r^2 \ge d{(p(t),{p_\phi }(\tau ))^2}
Dr2≥d(p(t),pϕ(τ))2时,
ψ
r
ϕ
{\psi _{{r_\phi }}}
ψrϕ 相对于
c
i
c_i
ci、
t
t
t 和
τ
\tau
τ 的梯度为
∂
ψ
r
ϕ
∂
c
i
=
−
2
β
(
t
)
(
p
(
t
)
−
p
ϕ
(
τ
)
)
T
,
(
34
)
\frac{{\partial {\psi _{{r_\phi }}}}}{{\partial {c_i}}} = - 2\beta (t){(p(t) - {p_\phi }(\tau ))^T}, (34)
∂ci∂ψrϕ=−2β(t)(p(t)−pϕ(τ))T,(34)
∂
ψ
r
ϕ
∂
t
=
−
2
(
p
(
t
)
−
p
ϕ
(
τ
)
)
T
p
˙
(
t
)
,
(
35
)
\frac{{\partial {\psi _{{r_\phi }}}}}{{\partial t}} = - 2{(p(t) - {p_\phi }(\tau ))^T}\dot p(t), (35)
∂t∂ψrϕ=−2(p(t)−pϕ(τ))Tp˙(t),(35)
∂
ψ
r
ϕ
∂
τ
=
2
(
p
(
t
)
−
p
ϕ
(
τ
)
)
T
p
˙
ϕ
(
t
)
.
(
36
)
\frac{{\partial {\psi _{{r_\phi }}}}}{{\partial \tau }} = 2{(p(t) - {p_\phi }(\tau ))^T}{\dot p_\phi }(t).(36)
∂τ∂ψrϕ=2(p(t)−pϕ(τ))Tp˙ϕ(t).(36)
6)动力学可行性惩罚
J
d
J_d
Jd:我们限制速度、加速度和加加速度的最大值,以保证智能体可以执行轨迹。读者可以参考[15]了解更多详细信息。
7)约束点的均匀分布
J
u
J_u
Ju:约束点预计是空间均匀的。不均匀的约束点可能会跳过一些小尺寸的障碍物,这可能会降低最终轨迹的安全性。因此,对均匀分布惩罚
J
u
J_u
Ju 进行优化,以防止约束点聚集在某些位置。读者可以参考[15]了解更多详细信息。
注
本博客主要是对原文的翻译,对其中的内容细节并没有仔细推敲,翻译难免有误,希望各位看客评论区指出。谢谢!