一、概要
本文算法提出的背景是常规的联邦学习方法对cross-silo问题低效,并提高了安全风险,因为在每一轮迭代中都需要交换梯度更新信息。本文提出的FedBCD算法允许多方在通信之前进行多次本地更新,从而减少通信量。
二、关键算法
问题定义
K K K个参与方, N N N个数据样本 D ≜ { ξ i } i = 1 N D\triangleq\{\xi_i\}_{i=1}^N D≜{
ξi}i=1N,其中 ξ ≜ ( x , y ) \xi\triangleq(\mathbf{x},y) ξ≜(x,y)表示为特征和label。特征向量 x i ∈ R 1 × d \mathbf{x}_i\in \R^{1\times d} xi∈R1×d分布在 K K K个参与方中 { x i , k ∈ R 1 × d k } k = 1 K \{\mathbf{x}_{i,k}\in \R^{1\times d_k}\}_{k=1}^K {
xi,k∈R1×dk}k=1K, d k d_k dk表示参与方的特征维度。有一方参与方拥有label,假设为参与方 K K K。则联邦数据集可以表示为: D k ≜ { x i , k } i = 1 N , k ∈ [ K − 1 ] ; D K ≜ { x i , K , y i , K } i = 1 N D_k\triangleq\{\mathbf{x}_{i,k}\}_{i=1}^N,k\in [K-1];D_K\triangleq \{\mathbf{x}_{i,K},y_{i,K}\}_{i=1}^N Dk≜{
xi,k}i=1N,k∈[K−1];DK≜{
xi,K,yi,K}i=1N。联邦训练模型:
min Θ L ( Θ , D ) ≜ 1 N ∑ i = 1 N f ( θ 1 , . . . , θ K ; ξ i ) + λ ∑ k = 1 K γ ( θ k ) ( 1 ) \min_{\Theta}L(\Theta, D)\triangleq \frac{1}{N}\sum_{i=1}^Nf(\theta_1,...,\theta_K;\xi_i)+\lambda\sum_{k=1}^K\gamma(\theta_k) \quad(1) ΘminL(Θ,D)≜N1