写在前面
原论文:Convergence Analysis of a Continuous-Time Distributed Gradient Descent Algorithm
本文是Zhang 20211的笔记,原论文将Qu 20182的梯度跟踪算法扩展到连续时间版本,并对收敛性进行分析。我感觉原文变量定义方式不太主流,可能有些错误的地方,因此证明部分自己又重新推导了一遍。欢迎读者检查本文推导部分,如果发现有错误,请评论告诉我,谢谢!
分布式优化问题
问题描述和假设
问题描述
min
x
∈
R
d
f
(
x
)
=
1
n
∑
i
=
1
n
f
i
(
x
)
\min_{x\in\mathbb R^d} f(x)=\frac{1}{n}\sum_{i=1}^n f_i(x)
x∈Rdminf(x)=n1i=1∑nfi(x)
假设1:所有 f i f_i fi是 μ \mu μ-强凸函数,即 f i ( x ) ≥ f i ( y ) + ∇ f i ( y ) T ( x − y ) + μ 2 ∥ x − y ∥ 2 f_i(x)\geq f_i(y)+\nabla f_i(y)^T(x-y)+\frac{\mu}{2}\|x-y\|^2 fi(x)≥fi(y)+∇fi(y)T(x−y)+2μ∥x−y∥2对全部 x , y ∈ R d x,y\in\mathbb R^d x,y∈Rd成立;且为 L L L-光滑,即 ∥ ∇ f i ( x ) − ∇ f i ( y ) ∥ ≤ L ∥ x − y ∥ \|\nabla f_i(x)-\nabla f_i(y)\|\leq L\|x-y\| ∥∇fi(x)−∇fi(y)∥≤L∥x−y∥对任意 x , y x,y x,y成立。
假设2:图无向连通。
强凸隐含条件: ∥ ∇ f i ( x ) − ∇ f i ( y ) ∥ ≥ μ ∥ x − y ∥ \|\nabla f_i(x)-\nabla f_i(y)\|\geq \mu\|x-y\| ∥∇fi(x)−∇fi(y)∥≥μ∥x−y∥对任意 x , y x,y x,y成立。
算法和变量定义
定义 x i , s i ∈ R d x_i,s_i\in\mathbb R^{d} xi,si∈Rd,其中 s i s_i si是每一个智能体对 1 n ∇ f i ( x i ) \frac{1}{n}\nabla f_i(x_i) n1∇fi(xi)的估计。令 x = [ x 1 T , ⋯ , x n T ] T ∈ R n q x=[x_1^T,\cdots,x_n^T]^T\in\mathbb R^{nq} x=[x1T,⋯,xnT]T∈Rnq。
定义
W
=
−
β
(
L
⊗
I
d
)
W=-\beta (L\otimes I_d)
W=−β(L⊗Id)。连续时间梯度跟踪算法的更新律如下:
x
˙
=
W
x
−
s
,
s
˙
=
W
s
+
∇
2
,
(
1
)
\begin{aligned} \dot x&=Wx-s,\\ \dot s&=Ws+\nabla^2, \end{aligned}\qquad (1)
x˙s˙=Wx−s,=Ws+∇2,(1)
其中
∇
2
:
=
blkdiag
(
∇
2
f
1
,
⋯
,
∇
2
f
n
)
x
˙
\nabla^2:=\operatorname{blkdiag}(\nabla^2 f_1,\cdots,\nabla^2f_n)\dot x
∇2:=blkdiag(∇2f1,⋯,∇2fn)x˙,初始值为任意
x
i
(
0
)
x_i(0)
xi(0)和
s
i
(
0
)
=
∇
f
i
(
x
i
(
0
)
)
s_i(0)=\nabla f_i(x_i(0))
si(0)=∇fi(xi(0))。因此
∑
i
s
i
(
t
)
=
∑
i
∇
f
i
(
x
i
(
t
)
)
\sum_i s_i(t)=\sum_i \nabla f_i(x_i(t))
∑isi(t)=∑i∇fi(xi(t))恒成立。(同样的后面的
w
w
w也满足此性质。)
可以看出,式(1)直接由Qu 2018中的离散形式推导而来。
为了简化证明,定义
w
=
−
s
=
x
˙
−
W
x
w=-s=\dot x-Wx
w=−s=x˙−Wx和
q
=
x
˙
q=\dot x
q=x˙。式(1)简化为
x
˙
=
w
+
W
x
,
w
˙
=
W
w
−
∇
2
,
(
2
)
\begin{aligned} \dot x&=w+Wx,\\ \dot w&=Ww-\nabla^2, \end{aligned}\qquad (2)
x˙w˙=w+Wx,=Ww−∇2,(2)
和
x
˙
=
q
,
q
˙
=
2
W
q
−
W
2
x
−
∇
2
.
(
3
)
\begin{aligned} \dot x&=q,\\ \dot q&=2W q-W^2x-\nabla^2. \end{aligned}\qquad (3)
x˙q˙=q,=2Wq−W2x−∇2.(3)
收敛性分析
理论分析分为以下四步。前三步证明了收敛性,最后一步证明了最优性。(由于我这里向量定义为列向量,原文向量均为行向量,最后计算出来一些系数不太相同。)
速度递减
令 Q = 1 2 ∥ q ∥ 2 ≥ 0 Q=\frac{1}{2}\|q\|^2\geq 0 Q=21∥q∥2≥0, X = 1 2 ∥ W x ∥ 2 ≥ 0 X=\frac{1}{2}\|Wx\|^2\geq 0 X=21∥Wx∥2≥0。直觉上看,当 x x x收敛于一个固定值时, x ˙ \dot x x˙也就是 q q q必然收敛于0。利用半正定函数 Q Q Q和 X X X,以下引理证明了 ∥ q ∥ \|q\| ∥q∥的指数收敛性。
引理1:在假设1、2下,有 ∥ q ∥ ≤ 2 Q ( 0 ) + 2 X ( 0 ) e − μ t \|q\|\leq \sqrt{2Q(0)+2X(0)}e^{-\mu t} ∥q∥≤2Q(0)+2X(0)e−μt。
证明:考虑类李雅普诺夫函数
V
=
Q
+
X
V=Q+X
V=Q+X。对时间求导得到
V
˙
=
q
T
q
˙
+
(
W
x
)
T
W
x
˙
=
2
q
T
W
q
−
q
T
W
2
x
−
q
T
∇
2
+
x
T
W
2
q
=
2
q
T
W
q
−
q
T
∇
2
≤
−
μ
q
T
q
=
−
2
μ
Q
.
\begin{aligned} \dot V&=q^T\dot q+(Wx)^TW\dot x\\ &=2q^TWq-q^TW^2x-q^T\nabla^2+x^TW^2q\\ &=2q^TWq-q^T\nabla^2\leq -\mu q^Tq=-2\mu Q. \end{aligned}
V˙=qTq˙+(Wx)TWx˙=2qTWq−qTW2x−qT∇2+xTW2q=2qTWq−qT∇2≤−μqTq=−2μQ.
因此,
Q
˙
+
X
˙
≤
−
2
μ
Q
\dot Q+\dot X\leq -2\mu Q
Q˙+X˙≤−2μQ,即
Q
(
t
)
≤
−
X
(
t
)
+
X
(
0
)
+
Q
(
0
)
+
∫
0
t
−
2
μ
Q
(
r
)
d
r
≤
X
(
0
)
+
Q
(
0
)
+
∫
0
t
−
2
μ
Q
(
r
)
d
r
\begin{aligned} Q(t)&\leq -X(t)+X(0)+Q(0)+\int_0^t-2\mu Q(r) dr\\ &\leq X(0)+Q(0)+\int_0^t-2\mu Q(r) dr \end{aligned}
Q(t)≤−X(t)+X(0)+Q(0)+∫0t−2μQ(r)dr≤X(0)+Q(0)+∫0t−2μQ(r)dr
由格朗沃尔不等式(Grönwall’s inequality)可得
Q
(
t
)
≤
(
X
(
0
)
+
Q
(
0
)
)
e
−
2
μ
t
,
Q(t)\leq (X(0)+Q(0))e^{-2\mu t},
Q(t)≤(X(0)+Q(0))e−2μt,
即
∥
q
∥
≤
2
Q
(
0
)
+
2
X
(
0
)
e
−
μ
t
\|q\|\leq \sqrt{2Q(0)+2X(0)}e^{-\mu t}
∥q∥≤2Q(0)+2X(0)e−μt。
格朗沃尔不等式:假设 α , β , u \alpha,\beta,u α,β,u为定义在实数区间 I = [ a , b ] I=[a,b] I=[a,b]( b b b可以为 ∞ \infty ∞)上的连续实函数,则有
(a) 如果 β \beta β非负,且 u u u满足如下积分不等式:
u ( t ) ≤ α ( t ) + ∫ a t β ( s ) u ( s ) d s , t ∈ I , u(t)\leq \alpha(t)+\int_a^t\beta(s)u(s)ds,\quad t\in I, u(t)≤α(t)+∫atβ(s)u(s)ds,t∈I,
那么
u ( t ) ≤ α ( t ) + ∫ a t α ( s ) β ( s ) exp ( ∫ s t β ( r ) d r ) d s , t ∈ I . u(t)\leq \alpha(t)+\int_a^t \alpha(s)\beta(s)\exp(\int_s^t\beta(r)dr)ds,\quad t\in I. u(t)≤α(t)+∫atα(s)β(s)exp(∫stβ(r)dr)ds,t∈I.
(b)如果在之前的条件下, α \alpha α是一个常数,那么
u ( t ) ≤ α exp ( ∫ a t β ( s ) d s ) , t ∈ I . u(t)\leq \alpha\exp(\int_a^t\beta (s)ds),\quad t\in I. u(t)≤αexp(∫atβ(s)ds),t∈I.
梯度递减
令 x ˉ = 1 n ∑ i x i \bar x=\frac{1}{n}\sum_i x_i xˉ=n1∑ixi, w ˉ = 1 n ∑ i w i \bar w=\frac{1}{n}\sum_i w_i wˉ=n1∑iwi和 ∇ ˉ 2 = 1 n ∑ i ∇ 2 f i ( x i ) x ˙ i \bar \nabla^2=\frac{1}{n}\sum_i \nabla^2 f_i(x_i)\dot x_i ∇ˉ2=n1∑i∇2fi(xi)x˙i。
引理2:在假设1、2下,有 ∥ w ˉ ∥ ≤ 2 n ( Q ( 0 ) + X ( 0 ) ) e − μ t \|\bar w\|\leq\sqrt{\frac{2}{n}(Q(0)+X(0))}e^{-\mu t} ∥wˉ∥≤n2(Q(0)+X(0))e−μt。
证明:由式(2)得到,
x
ˉ
˙
=
w
ˉ
w
ˉ
˙
=
−
∇
ˉ
2
\begin{aligned} \dot {\bar x}&=\bar w\\ \dot {\bar w}&=-\bar \nabla ^2 \end{aligned}
xˉ˙wˉ˙=wˉ=−∇ˉ2
令
Π
=
1
n
1
1
T
⊗
I
d
\Pi=\frac{1}{n}11^T\otimes I_d
Π=n111T⊗Id。由于
q
ˉ
=
x
ˉ
˙
=
w
ˉ
=
−
1
n
∑
i
∇
f
i
(
x
i
)
\bar q=\dot {\bar x}=\bar w=-\frac{1}{n}\sum_i \nabla f_i(x_i)
qˉ=xˉ˙=wˉ=−n1∑i∇fi(xi),有
n
∥
w
ˉ
∥
2
=
n
∥
q
ˉ
∥
2
=
∥
Π
q
∥
2
≤
∥
q
∥
2
.
\begin{aligned} n\|\bar w\|^2=n\|\bar q\|^2=\|\Pi q\|^2\leq \|q\|^2. \end{aligned}
n∥wˉ∥2=n∥qˉ∥2=∥Πq∥2≤∥q∥2.
故 ∥ w ˉ ∥ ≤ 2 n ( Q ( 0 ) + X ( 0 ) ) e − μ t \|\bar w\|\leq \sqrt{\frac{2}{n}(Q(0)+X(0))}e^{-\mu t} ∥wˉ∥≤n2(Q(0)+X(0))e−μt。
均值一致
定义误差矩阵 δ w = w − Π w \delta_w=w-\Pi w δw=w−Πw和 δ x = x − Π x \delta_x=x-\Pi x δx=x−Πx。定义相应的李雅普诺夫函数 Δ w = 1 2 ∥ δ w ∥ 2 \Delta_w=\frac{1}{2}\|\delta_w\|^2 Δw=21∥δw∥2和 Δ x = 1 2 ∥ δ x ∥ 2 \Delta_x=\frac{1}{2}\|\delta_x\|^2 Δx=21∥δx∥2。
引理3(Olfati-Saber 20043):令图 G \mathcal G G是无向图,其拉普拉斯矩阵为 L L L。那么 λ 2 = min 1 T δ = 0 , δ ≠ 0 ( δ T L δ / δ T δ ) \lambda_2=\min_{1^T\delta=0,\delta\neq 0}(\delta^TL\delta/\delta^T\delta) λ2=min1Tδ=0,δ=0(δTLδ/δTδ)是 L L L的第二小特征根。
引理4:在假设1、2下, w , x w,x w,x以指数速率达成一致,即
∥ δ w ∥ ≤ C 1 ( e − β λ 2 t + ( 1 + t ) e − μ t ) , ∥ δ x ∥ ≤ C 2 ( ( 1 + t ) e − β λ 2 t + ( 1 + t ) 2 e − μ t ) , \begin{aligned} \|\delta_w\|&\leq C_1(e^{-\beta \lambda_2 t}+(1+t)e^{-\mu t}),\\ \|\delta_x\|&\leq C_2((1+t)e^{-\beta \lambda_2 t}+(1+t)^2e^{-\mu t}), \end{aligned} ∥δw∥∥δx∥≤C1(e−βλ2t+(1+t)e−μt),≤C2((1+t)e−βλ2t+(1+t)2e−μt),
其中 C 1 , C 2 C_1,C_2 C1,C2为正常数。
证明:(1)根据定义,有
δ
˙
w
+
Π
w
˙
=
W
δ
w
−
∇
2
\dot \delta_w+\Pi \dot w=W\delta_w-\nabla^2
δ˙w+Πw˙=Wδw−∇2,和
Δ
˙
w
=
δ
w
T
(
W
δ
w
−
∇
2
)
+
δ
w
T
Π
∇
2
≤
−
2
β
λ
2
Δ
w
−
δ
w
T
∇
2
≤
−
2
β
λ
2
Δ
w
+
L
∥
δ
w
∥
∥
q
∥
=
−
2
β
λ
2
Δ
w
+
2
L
Δ
w
Q
(
0
)
+
X
(
0
)
e
−
μ
t
.
\begin{aligned} \dot \Delta_w&=\delta_w^T(W\delta_w-\nabla^2)+\delta_w^T\Pi\nabla^2\\ &\leq -2\beta\lambda_2\Delta_w-\delta_w^T\nabla^2\\ &\leq-2\beta\lambda_2\Delta_w+L\|\delta_w\|\|q\|\\ &=-2\beta\lambda_2\Delta_w+2L\sqrt{\Delta_w}\sqrt{Q(0)+X(0)}e^{-\mu t}. \end{aligned}
Δ˙w=δwT(Wδw−∇2)+δwTΠ∇2≤−2βλ2Δw−δwT∇2≤−2βλ2Δw+L∥δw∥∥q∥=−2βλ2Δw+2LΔwQ(0)+X(0)e−μt.
即
∥
δ
w
∥
′
≤
−
β
λ
2
∥
δ
w
∥
+
L
2
Q
(
0
)
+
2
X
(
0
)
e
−
μ
t
\|\delta_w\|'\leq -\beta\lambda_2\|\delta_w\|+L\sqrt{2Q(0)+2X(0)}e^{-\mu t}
∥δw∥′≤−βλ2∥δw∥+L2Q(0)+2X(0)e−μt。
注意到
(
∥
δ
w
∥
′
+
β
λ
2
∥
δ
w
∥
)
e
β
λ
2
t
=
(
∥
δ
w
∥
e
β
λ
2
t
)
′
≤
L
2
Q
(
0
)
+
2
X
(
0
)
e
β
λ
2
t
−
μ
t
(\|\delta_w\|'+\beta\lambda_2\|\delta_w\|)e^{\beta \lambda_2t}=(\|\delta_w\|e^{\beta\lambda_2 t})'\leq L\sqrt{2Q(0)+2X(0)}e^{\beta\lambda_2t-\mu t}
(∥δw∥′+βλ2∥δw∥)eβλ2t=(∥δw∥eβλ2t)′≤L2Q(0)+2X(0)eβλ2t−μt,可得
∥
δ
w
∥
≤
C
11
(
e
−
β
λ
2
t
+
e
−
μ
t
)
,
β
λ
2
≠
μ
,
∥
δ
w
∥
≤
C
12
(
t
e
−
μ
t
+
e
−
μ
t
)
,
β
λ
2
≠
μ
.
\begin{aligned} \|\delta_w\|&\leq C_{11}(e^{-\beta\lambda_2 t}+e^{-\mu t}),\quad \beta\lambda_2\neq \mu,\\ \|\delta_w\|&\leq C_{12}(te^{-\mu t}+e^{-\mu t}),\quad \beta\lambda_2\neq \mu.\\ \end{aligned}
∥δw∥∥δw∥≤C11(e−βλ2t+e−μt),βλ2=μ,≤C12(te−μt+e−μt),βλ2=μ.
取
C
1
=
max
{
C
11
,
C
12
}
C_1=\max\{C_{11},C_{12}\}
C1=max{C11,C12},可得
∥
δ
w
∥
≤
C
1
(
e
−
β
λ
2
t
+
(
1
+
t
)
e
−
μ
t
)
.
\|\delta_w\|\leq C_1(e^{-\beta \lambda_2 t}+(1+t)e^{-\mu t}).
∥δw∥≤C1(e−βλ2t+(1+t)e−μt).
(2)根据定义,有
δ
˙
x
=
w
+
W
δ
x
−
Π
w
\dot \delta_x=w+W\delta_x-\Pi w
δ˙x=w+Wδx−Πw,和
Δ
˙
x
=
δ
x
T
(
w
+
W
δ
x
−
Π
w
)
≤
−
2
β
λ
2
Δ
x
+
δ
x
T
δ
w
≤
−
2
β
λ
2
Δ
x
+
∥
δ
w
∥
2
Δ
x
\begin{aligned} \dot \Delta_x&=\delta_x^T(w+W\delta_x-\Pi w)\\ &\leq -2\beta\lambda_2\Delta_x+\delta_x^T\delta_w\\ &\leq -2\beta\lambda_2\Delta_x+\|\delta_w\|\sqrt{2\Delta_x} \end{aligned}
Δ˙x=δxT(w+Wδx−Πw)≤−2βλ2Δx+δxTδw≤−2βλ2Δx+∥δw∥2Δx
由前面的结论,可得
∥
δ
x
∥
′
≤
−
β
λ
2
∥
δ
x
∥
+
C
1
(
e
−
β
λ
2
t
+
(
1
+
t
)
e
−
μ
t
)
.
\|\delta_x\|'\leq-\beta\lambda_2\|\delta_x\|+C_1(e^{-\beta \lambda_2 t}+(1+t)e^{-\mu t}).
∥δx∥′≤−βλ2∥δx∥+C1(e−βλ2t+(1+t)e−μt).
同理可得
∥
δ
x
∥
≤
C
2
(
(
1
+
t
)
e
−
β
λ
2
t
+
(
1
+
t
)
2
e
−
μ
t
)
.
\|\delta_x\|\leq C_2((1+t)e^{-\beta \lambda_2 t}+(1+t)^2e^{-\mu t}).
∥δx∥≤C2((1+t)e−βλ2t+(1+t)2e−μt).
最优误差
最优性由最优状态误差给出,该误差指数收敛。
定理1:在假设1、2下,最优状态误差以指数速率收敛
∥ x − 1 ⊗ x ∗ ∥ ≤ C 3 ( ( 1 + t ) e − β λ 2 t + ( 1 + t ) 2 e − μ t ) , \begin{aligned} \|x-1\otimes x^*\|&\leq C_3((1+t)e^{-\beta\lambda_2t}+(1+t)^2e^{-\mu t}),\\ \end{aligned} ∥x−1⊗x∗∥≤C3((1+t)e−βλ2t+(1+t)2e−μt),
其中 C 3 C_3 C3是正常数。
证明:定义
g
=
∑
i
∇
f
i
(
x
i
)
=
−
n
w
ˉ
g=\sum_i\nabla f_i(x_i)=-n\bar w
g=∑i∇fi(xi)=−nwˉ和
g
ˉ
=
∑
i
∇
f
i
(
x
ˉ
)
\bar g=\sum_i\nabla f_i(\bar x)
gˉ=∑i∇fi(xˉ),有
∥
g
−
g
ˉ
∥
2
=
∥
∑
i
(
∇
f
i
(
x
i
)
−
∇
f
i
(
x
ˉ
)
)
∥
2
≤
∑
i
∥
∇
f
i
(
x
i
)
−
∇
f
i
(
x
ˉ
)
∥
2
≤
∑
i
L
∥
x
i
−
x
ˉ
∥
2
=
L
∥
δ
x
∥
2
.
\begin{aligned} \|g-\bar g\|^2&=\|\sum_i (\nabla f_i(x_i)-\nabla f_i(\bar x))\|^2\\ &\leq \sum_i\|\nabla f_i(x_i)-\nabla f_i(\bar x)\|^2\\ &\leq \sum_iL\|x_i-\bar x\|^2 = L\|\delta_x\|^2. \end{aligned}
∥g−gˉ∥2=∥i∑(∇fi(xi)−∇fi(xˉ))∥2≤i∑∥∇fi(xi)−∇fi(xˉ)∥2≤i∑L∥xi−xˉ∥2=L∥δx∥2.
作为结果,我们得到
∥
x
∗
−
x
ˉ
∥
2
≤
1
/
μ
2
∥
∇
f
(
x
∗
)
−
∇
f
(
x
ˉ
)
∥
2
=
1
/
μ
2
∥
∇
f
(
x
ˉ
)
∥
2
=
1
/
(
n
μ
)
2
∥
g
ˉ
∥
2
≤
1
/
(
n
μ
)
2
(
∥
g
−
g
ˉ
∥
+
∥
g
∥
)
2
\begin{aligned} \|x^*-\bar x\|^2&\leq 1/\mu^2\|\nabla f(x^*)-\nabla f(\bar x)\|^2\\ &=1/\mu^2\|\nabla f(\bar x)\|^2=1/(n\mu)^2\|\bar g\|^2\\ &\leq1/(n\mu)^2(\|g-\bar g\|+\|g\|)^2 \end{aligned}
∥x∗−xˉ∥2≤1/μ2∥∇f(x∗)−∇f(xˉ)∥2=1/μ2∥∇f(xˉ)∥2=1/(nμ)2∥gˉ∥2≤1/(nμ)2(∥g−gˉ∥+∥g∥)2
注意到
∥
g
−
g
ˉ
∥
\|g-\bar g\|
∥g−gˉ∥可用
∥
δ
x
∥
\|\delta_x\|
∥δx∥表示,
∥
g
∥
\|g\|
∥g∥可用
∥
w
ˉ
∥
\|\bar w\|
∥wˉ∥表示。因此由引理2和引理5得到
∥
x
−
1
⊗
x
∗
∥
≤
∥
δ
x
∥
+
∥
1
⊗
(
x
∗
−
x
ˉ
)
∥
≤
C
3
(
(
1
+
t
)
e
−
β
λ
2
t
+
(
1
+
t
)
2
e
−
μ
t
)
.
\begin{aligned} \|x-1\otimes x^*\|&\leq \|\delta_x\|+\|1\otimes (x^*-\bar x)\|\\ &\leq C_3((1+t)e^{-\beta \lambda_2 t}+(1+t)^2e^{-\mu t}). \end{aligned}
∥x−1⊗x∗∥≤∥δx∥+∥1⊗(x∗−xˉ)∥≤C3((1+t)e−βλ2t+(1+t)2e−μt).
M. Zhang, X. Liu, and J. Liu, “Convergence Analysis of a Continuous-Time Distributed Gradient Descent Algorithm,” IEEE Control Syst. Lett., vol. 5, no. 4, pp. 1339–1344, Nov. 2021. ↩︎
G. Qu and N. Li, “Harnessing smoothness to accelerate distributed optimization,” IEEE Trans. Control Netw. Syst., vol. 5, no. 3, pp. 1245–1260, Sep. 2018. ↩︎
R. Olfati-Saber and R. M. Murray, “Consensus problems in networks of agents with switching topology and time-delays,” IEEE Trans. Autom. Control, vol. 49, no. 9, pp. 1520–1533, Sep. 2004. ↩︎