Abstract
我们从对偶的角度研究了联邦优化问题,并提出了一种新的算法,称为联邦对偶坐标下降(FedDCD),该算法基于Necora等人[Journal of optimization Theory and Applications, 2017]开发的一种坐标下降方法。此外,我们利用不精确梯度预言和Nesterov加速对FedDCD方法进行了改进。我们从理论上证明,在某些情况下,我们提出的方法比最先进的原始联邦优化算法实现了更好的收敛速度。在真实数据集上的数值实验支持了我们的分析。
1 Introduction
随着人工智能的发展,人们认识到许多强大的机器学习模型是由大型分布式数据集驱动的,例如AlphaGo [Silver et al, 2016]和AlexNet [Krizhevsky et al, 2012]。
在许多工业场景中,培训数据由不同的组织维护,由于监管和隐私方面的考虑,在这些组织之间传输或共享数据是不可行的[Li等人,2020a]。因此,人们对训练机器学习模型越来越感兴趣,这些模型不需要在一个地方收集所有数据。联邦学习(FL)最初由McMahan等人[2017]提出,用于在来自移动设备的分散数据上训练模型,后来由Yang等人[2019]和Kairouz等人[2019]扩展,是一种训练框架,允许多个客户端在不共享数据的情况下协作训练模型。
FL中的学习过程可以表述为一个分布式优化问题,也称为联邦优化(FO)。假设有N个客户端,每个客户端i维护一个本地数据集Di。FO旨在解决经验风险最小化问题
minimize
w
∈
R
d
F
(
w
)
:
=
∑
i
=
1
N
f
i
(
w
)
\underset{w \in \mathbb{R}^d}{\operatorname{minimize}} F(w):=\sum_{i=1}^N f_i(w)
w∈RdminimizeF(w):=∑i=1Nfi(w)
,其中w为全局模型参数,每个局部目标
f
i
:
R
d
→
R
f_i: \mathbb{R}^d \rightarrow \mathbb{R}
fi:Rd→R定义为
f
i
(
w
)
=
ℓ
(
w
;
D
i
)
f_i(w)=\ell\left(w ; \mathcal{D}_i\right)
fi(w)=ℓ(w;Di),其中
ℓ
(
⋅
,
D
i
)
\ell\left(\cdot, \mathcal{D}_i\right)
ℓ(⋅,Di)是每个Di的凸可微损失函数.正如Wang等人[2021]、Li等人[2020b]和Li等人[2020d]所描述和形式化的那样,FO与标准机器学习和分布式优化有几个重要的特征。
假设1.1(控制假设)。以下假设适用于FO。
沟通缓慢。客户端和中央服务器之间的通信被认为是主要的瓶颈,主导着每个客户端所做的任何计算工作。
•数据隐私。客户端希望保持其本地数据的私密性,也就是说,它们的数据不能被任何其他客户端或中央服务器访问。
•数据异构。训练数据不是独立和同分布的(i.i.d)。换句话说,客户端的本地数据不能看作是从单一的整体分布中抽取的样本。
•部分参与。与传统的分布式学习系统不同,FL系统不能控制单个客户端设备,并且客户端连接的可用性可能有限。
FO之前的大部分工作都集中在直接解决原始经验风险最小化问题§ [McMahan等人,2017;Li et al, 2020c;Yuan等,2021;Karimireddy等人,2021]。这些FO建议采用的广泛方法是基于要求客户端独立更新本地模型,然后与负责聚合这些模型的中央服务器共享。
在分布式优化框架下,经验风险最小化问题§的对偶方法得到了很好的发展,并且可以追溯到对偶分解[Zeng等人,2008;Joachims, 1999],增宽拉格朗日[Jakoveti´c等人,2014]和乘法器的交替方向方法(ADMM) [Boyd等人,2011;魏和Ozdaglar, 2012]。最近的方法包括ingel-step和multi-step dual accelerated (SSDA和MSDA)方法[Scaman et al, 2017]。然而,这些方法不能在FO设置下直接应用,因为它们违反了假设1.1的一些内容。例如,MSDA算法[Scaman et al, 2017]享有最优的收敛速度,但要求每一轮都有客户的充分参与,这在假设1.1下是不现实的。
相比之下,我们的方法基于对偶问题,这是一个具有结构化线性约束(D)的可分离优化问题。我们表明,Necoara等人[2017]提出的线性约束问题的随机块坐标下降方法特别适用于FL设置。因为控制每个客户端执行的本地计算量是很重要的,我们展示了如何修改这种方法以适应不精确的梯度预言。我们还展示了如何使用Nesterov的加速度来降低整体复杂性。因此,在某些情况下,我们获得了比其他最先进的FO算法更好的收敛速度。
我们的贡献可以总结如下。
- 我们从对偶角度解决FO问题,基于Necoara等[2017]提出的随机块坐标下降(RBCD)方法,开发了FO的联邦双坐标下降(FedDCD)算法。我们证明了FedDCD很好地符合FL的设置。
- 我们用不精确梯度预言和Nesterov加速扩展FedDCD。在某些情况下,所得到的收敛速度优于当前最先进的FO算法。
3.我们为FO建立了一个复杂度下界,下界表明FedDCD加速速率与下界之间仍有√N的差距。
2 Related work
从Bertsekas和Tsitsiklis[1989]的开创性工作开始,分布式和并行优化已被广泛研究。除了前面提到的ADMM、SSD和MSDA方法外,目前流行的分布式优化算法包括随机八卦算法[Boyd et al, 2006]和各种分布式一阶方法,如分布式梯度下降[Nedic and Ozdaglar, 2009]、分布式对偶平均[Duchi et al, 2012]、分布式坐标下降[Richt´arik and Tak´ac, 2016]、EXTRA [Shi et al, 2015]。
联邦优化[Wang et al, 2021]是一个新兴的研究课题,与集中式分布式优化密切相关。然而,由于假设1.1的存在,现有的大多数分布式优化算法都不能直接应用于FO。由于FL问题通常涉及大量的总数据点,大多数现有的FO算法用于解决§,如小批量SGD (MB-SGD) [Woodworth等人,2020],FedAvg (aka。local SGD) [McMahan, 2017], FedProx [Li等人,2020c], FedDualAvg [Yuan等人,2021],SCAFFOLD [Karimireddy等人,2020],MIME [Karimireddy等人,2021]是SGD算法的变体。SGD框架之外的方法没有得到很好的开发。
我们开发的方法是基于一种变化的坐标下降适应问题与结构化线性约束。这种算法已经在核支持向量机(SVM)的背景下得到了很好的研究[Luo and Tseng, 1993;普拉特,1998;张和林,2011]。我们基于Necoara等人[2017]提出的方法。
3 Problem formulation
问题§的对偶问题由
minimize
y
1
,
…
,
y
N
∈
R
d
G
(
y
)
:
=
∑
i
=
1
N
f
i
∗
(
y
i
)
\underset{y_1, \ldots, y_N \in \mathbb{R}^d}{\operatorname{minimize}} G(y):=\sum_{i=1}^N f_i^*\left(y_i\right)
y1,…,yN∈RdminimizeG(y):=∑i=1Nfi∗(yi) subject to
∑
i
=
1
N
y
i
=
0
\sum_{i=1}^N y_i=0
∑i=1Nyi=0
where
f
i
∗
(
y
)
:
=
sup
w
⟨
y
,
w
⟩
−
f
(
w
)
f_i^*(y):=\sup _w\langle y, w\rangle-f(w)
fi∗(y):=supw⟨y,w⟩−f(w) is the convex conjugate function of
f
i
f_i
fi. Throughout this paper, we denote
y
∗
y^*
y∗ as a solution of problem (D). To obtain this dual problem let
w
∗
w^*
w∗ denote the optimal solution to the primal problem eq. §. By the first-order optimality condition, we know that
0
∈
∂
(
∑
i
=
1
N
f
i
)
(
w
∗
)
0 \in \partial\left(\sum_{i=1}^N f_i\right)\left(w^*\right)
0∈∂(i=1∑Nfi)(w∗)
which is equivalent to
where
{
y
i
∗
}
i
=
1
N
\left\{y_i^*\right\}_{i=1}^N
{yi∗}i=1N are the optimal solutions to the problem (D), and (i), (ii) and (iii), respectively, follow from Hiriart-Urruty and Lemaréchal [2001, Proposition E.1.4.3, Proposition E.2.3.2 and Corollary D.4.5.5].
3.1 Assumptions and notations
我们对每个基本目标
f
i
f_i
fi做出以下标准假设。
Assumption 3.1 (Strong convexity). There exist
α
>
0
\alpha>0
α>0 such that
f
i
(
x
)
≥
f
i
(
y
)
+
⟨
∇
f
i
(
y
)
,
x
−
y
⟩
+
α
2
∥
x
−
y
∥
2
f_i(x) \geq f_i(y)+\left\langle\nabla f_i(y), x-y\right\rangle+\frac{\alpha}{2}\|x-y\|^2
fi(x)≥fi(y)+⟨∇fi(y),x−y⟩+2α∥x−y∥2
for any
x
,
y
∈
R
d
x, y \in \mathbb{R}^d
x,y∈Rd and
∀
i
∈
[
N
]
\forall i \in[N]
∀i∈[N]. This also implies that
G
G
G is
(
1
/
α
)
(1 / \alpha)
(1/α) block-wise smooth.
Assumption 3.2 (Smoothness). There exist
β
>
0
\beta>0
β>0 such that
f
i
(
x
)
≤
f
i
(
y
)
+
⟨
∇
f
i
(
y
)
,
x
−
y
⟩
+
β
2
∥
x
−
y
∥
2
f_i(x) \leq f_i(y)+\left\langle\nabla f_i(y), x-y\right\rangle+\frac{\beta}{2}\|x-y\|^2
fi(x)≤fi(y)+⟨∇fi(y),x−y⟩+2β∥x−y∥2
for any
x
,
y
∈
R
d
x, y \in \mathbb{R}^d
x,y∈Rd and
∀
i
∈
[
N
]
\forall i \in[N]
∀i∈[N]. This also implies that
G
G
G is
(
1
/
β
)
(1 / \beta)
(1/β) block-wise strongly convex.
这两个假设是至关重要的,因为它们在原始空间和对偶空间之间产生了一对一的对应关系,并允许我们将每个yi解释为全局模型w的局部对偶表示。
我们的分析也适用于每个函数fi的参数α和β变化的情况,但在这里,为了简单起见,我们假设它们对每个fi是固定的。
客户端之间的数据异质性可以用函数fi的多样性来衡量,即用梯度来衡量。在凸情况下,仅在最优点w *处度量函数的多样性就足够了;见Koloskova等人[2020,假设3a]。
Assumption 3.3 (Data heterogeneity). Let
w
∗
=
arg
min
F
(
w
)
w^*=\arg \min F(w)
w∗=argminF(w). There exist
ζ
>
0
\zeta>0
ζ>0 such that for any
i
∈
[
N
]
i \in[N]
i∈[N],
∥
∇
f
i
(
w
∗
)
∥
≤
ζ
.
\left\|\nabla f_i\left(w^*\right)\right\| \leq \zeta .
∥∇fi(w∗)∥≤ζ.
The relationship between
y
i
∗
y_i^*
yi∗ and
∇
f
i
(
w
∗
)
\nabla f_i\left(w^*\right)
∇fi(w∗) implies that
∥
y
i
∗
∥
≤
ζ
∀
i
∈
[
N
]
\left\|y_i^*\right\| \leq \zeta \forall i \in[N]
∥yi∗∥≤ζ∀i∈[N], where
y
∗
y^*
y∗ is the solution of problem (D).
FL的一个基本假设是,中央服务器不能控制客户端设备,不能保证他们每轮的参与。因此,部分参与是高效FL的重要特征。
在这里,我们遵循标准随机参与模型[Wang等人,2021;Li等人,2020b,d],并假设有固定数量的随机生成的客户端参与每一轮培训。
假设3.4(随机部分参与)。存在一个正整数τ∈{2,…N},使得在每一轮中,只有τ个客户端均匀随机分布在所有客户端集合中,这些客户端可以与中心服务器通信
Now we introduce some notations. For any integer
N
N
N, we denote
[
N
]
[N]
[N] as the set
{
1
,
2
,
…
,
N
}
\{1,2, \ldots, N\}
{1,2,…,N}. Given
I
⊆
[
N
]
I \subseteq[N]
I⊆[N] and
{
g
i
∈
R
d
∣
i
∈
[
N
]
}
\left\{g_i \in \mathbb{R}^d \mid i \in[N]\right\}
{gi∈Rd∣i∈[N]}, we define the concatenation
g
I
∈
R
N
d
g_I \in \mathbb{R}^{N d}
gI∈RNd as
g
I
[
(
i
−
1
)
d
+
1
:
i
⋅
d
]
=
{
g
i
i
∈
I
;
0
otherwise.
g_I[(i-1) d+1: i \cdot d]= \begin{cases}g_i & i \in I ; \\ 0 & \text { otherwise. }\end{cases}
gI[(i−1)d+1:i⋅d]={gi0i∈I; otherwise.
Given
I
⊆
[
N
]
I \subseteq[N]
I⊆[N], we define the linear manifold
C
I
=
{
y
∈
R
N
d
∣
y
i
∈
R
d
,
∑
i
∈
I
y
i
=
0
}
.
\mathcal{C}_I=\left\{y \in \mathbb{R}^{N d} \mid y_i \in \mathbb{R}^d, \quad \sum_{i \in I} y_i=0\right\} .
CI={y∈RNd∣yi∈Rd,i∈I∑yi=0}.
It follows that
C
[
N
]
\mathcal{C}_{[N]}
C[N] corresponds to the constraint set in eq. (D). Let
e
d
∈
R
d
e_d \in \mathbb{R}^d
ed∈Rd denote the vector of all ones, and
e
I
e_I
eI denote vector where
e
i
=
1
e_i=1
ei=1 if
i
∈
I
i \in I
i∈I and
e
i
=
0
e_i=0
ei=0 elsewhere. For any positive definite matrix
W
∈
R
N
d
×
N
d
W \in \mathbb{R}^{N d \times N d}
W∈RNd×Nd, we define the weighted norm as
∥
x
∥
W
:
=
x
T
W
x
\|x\|_W:=\sqrt{x^T W x}
∥x∥W:=xTWx. The projection operator onto the set
C
I
\mathcal{C}_I
CI with respect to the weighted norm
∥
⋅
∥
W
\|\cdot\|_W
∥⋅∥W is defined as
proj
C
I
W
(
x
)
=
arg
min
y
∥
y
−
x
∥
W
2
subject to
y
∈
C
I
.
\operatorname{proj}_{\mathcal{C}_I}^W(x)=\underset{y}{\arg \min }\|y-x\|_W^2 \quad \text { subject to } y \in \mathcal{C}_I \text {. }
projCIW(x)=yargmin∥y−x∥W2 subject to y∈CI.
4 Federated dual coordinate descent
Necoara等人[2017]提出了一种随机块坐标下降(RBCD)方法来解决线性约束可分离凸问题,如对偶问题(D)。下面我们将描述如何在FL设置中应用该方法,我们将该算法的特化称为联邦对偶坐标下降(FedDCD)。
训练回合如下。在循环t中,假设局部对偶表示y(t) i是对偶可行的,即:
∑
i
=
1
N
y
i
(
t
)
=
0
\sum_{i=1}^N y_i^{(t)}=0
∑i=1Nyi(t)=0
首先,中央服务器接收到参与客户端的id
I
=
{
i
1
,
…
,
i
τ
}
⊆
{
1
,
…
,
N
}
I=\left\{i_1, \ldots, i_\tau\right\} \subseteq\{1, \ldots, N\}
I={i1,…,iτ}⊆{1,…,N}。接下来,每个参与的客户端计算一个局部原始模型
w
i
(
t
)
w_i^{(t)}
wi(t),它也可以被并行地解释为对偶表示的下降方向,即:
w
i
(
t
)
=
∇
f
i
∗
(
y
i
(
t
)
)
=
arg
min
w
∈
R
d
{
f
i
(
w
)
−
⟨
w
,
y
i
(
t
)
⟩
}
for all
i
∈
I
.
w_i^{(t)}=\nabla f_i^*\left(y_i^{(t)}\right)=\underset{w \in \mathbb{R}^d}{\arg \min }\left\{f_i(w)-\left\langle w, y_i^{(t)}\right\rangle\right\} \quad \text { for all } \quad i \in I .
wi(t)=∇fi∗(yi(t))=w∈Rdargmin{fi(w)−⟨w,yi(t)⟩} for all i∈I.
原则上,每个参与的客户端必须精确地最小化
f
i
−
⟨
⋅
,
y
i
(
t
)
⟩
f_i-\left\langle\cdot, y_i^{(t)}\right\rangle
fi−⟨⋅,yi(t)⟩,使用一个可能昂贵的过程,以获得
w
i
(
t
)
w_i^{(t)}
wi(t)。在下一节中,我们将展示客户端如何使用更便宜的过程来生成近似的原始模型
w
i
(
t
)
w_i^{(t)}
wi(t)。然后每个参与的客户端将计算得到的本地原始模型
w
i
(
t
)
w_i^{(t)}
wi(t)发送到中央服务器。随后,中央服务器调整上传的原始模型,以确保本地对偶表示在更新后仍然是双可行的。具体来说,它将计算新的局部原始模型
{
w
^
i
(
t
)
∣
i
∈
I
}
\left\{\hat{w}_i^{(t)} \mid i \in I\right\}
{w^i(t)∣i∈I} as
w
^
I
(
t
)
=
proj
C
I
Λ
(
Λ
−
1
w
I
(
t
)
)
\hat{w}_I^{(t)}=\operatorname{proj}_{\mathcal{C}_I}^{\Lambda}\left(\Lambda^{-1} w_I^{(t)}\right)
w^I(t)=projCIΛ(Λ−1wI(t))
其中
Λ
∈
R
N
d
×
N
d
:
=
diag
(
λ
1
,
…
,
λ
N
)
⊗
I
d
×
d
\Lambda \in \mathbb{R}^{N d \times N d}:=\operatorname{diag}\left(\lambda_1, \ldots, \lambda_N\right) \otimes \mathbb{I}_{d \times d}
Λ∈RNd×Nd:=diag(λ1,…,λN)⊗Id×d是一个预先定义的对角矩阵,通常取决于客户机的局部强凸性参数。可以看出,更新后的方向具有闭形式表达式:
w
^
i
(
t
)
=
λ
i
−
1
w
i
(
t
)
−
λ
i
−
1
∑
j
∈
I
λ
j
−
1
∑
j
∈
I
λ
j
−
1
w
j
(
t
)
for all
i
∈
I
\hat{w}_i^{(t)}=\lambda_i^{-1} w_i^{(t)}-\frac{\lambda_i^{-1}}{\sum_{j \in I} \lambda_j^{-1}} \sum_{j \in I} \lambda_j^{-1} w_j^{(t)} \quad \text { for all } \quad i \in I
w^i(t)=λi−1wi(t)−∑j∈Iλj−1λi−1j∈I∑λj−1wj(t) for all i∈I
最后,中央服务器将更新后的原始模型发送回每个参与的客户端,客户端将相应地更新其本地双表示,即::
y
i
(
t
+
1
)
=
y
i
(
t
)
−
η
(
t
)
w
^
i
(
t
)
y_i^{(t+1)}=y_i^{(t)}-\eta^{(t)} \hat{w}_i^{(t)}
yi(t+1)=yi(t)−η(t)w^i(t)
其中η(t)为学习率。算法1总结了所有这些步骤。我们可以直接应用Necoara等[2017]的结果来获得该方法的收敛速度。
4.1 Applicability under federated learning
在本节中,我们将讨论FedDCD(算法1)的属性,并认为它是一种适合FL的算法,因为它尊重控制FL的假设(假设1.1),这与经典的分布式优化不同,如第1节所述。具体地说,
•沟通减少。表1总结了一些现有FO方法的通信复杂性,如小批量SGD (MB-SGD) [Woodworth et al, 2020], FedAvg (local SGD) [McMahan et al, 2017], SCAFFOLD [Karimireddy et al, 2020]。与其他算法的速率相比,我们的通信复杂度只涉及到对?(但代价是N出现在提名人中)。这些速率意味着当N/τ不是太大时,FedDCD比其他算法收敛得更快。另一方面,如果N/τ很大,即参与率很小,MB-SGD和FedAvg(局部SGD)收敛得更快,因为它们的收敛速度与客户数量无关。
•数据隐私。如算法1所示,我们的方法只需要客户端向服务器发送本地模型更新,这类似于大多数现有的FO方法[McMahan et al, 2017;Li et al, 2020c;Yuan等,2021;Karimireddy等人,2021]。这样就保护了本地数据的隐私。
•数据异构。客户端之间的数据异质性通过假设3.3中的参数ζ来体现,即ζ越大,客户端之间的数据异质性越大。式(5)给出了ζ对收敛速度的影响。在所有客户端具有相同的本地数据的极端情况下,即对于所有i, j∈[N], fi = fj,算法1将在第一次迭代时到达最优点。
•部分参与。根据设计,算法1只需要τ客户端参与每一轮,其中τ可以是2到n之间的任何数字。这个特性为每轮参与客户端的数量提供了灵活性。定理4.1还表明,随着更多的客户端参与,收敛速度会提高。请注意,收敛分析还可以揭示当允许参与客户端的数量在各轮之间变化时,该方法的行为。
5不精确联邦双坐标下降
后面的下次写,还没看明白