《【FedBCD】A Communication-Efficient Collaborative Learning Framework for Distributed Features》论文阅读-CSDN博客

本文链接：https://blog.csdn.net/superY_26/article/details/134793549

一、概要

本文算法提出的背景是常规的联邦学习方法对cross-silo问题低效，并提高了安全风险，因为在每一轮迭代中都需要交换梯度更新信息。本文提出的FedBCD算法允许多方在通信之前进行多次本地更新，从而减少通信量。

二、关键算法

问题定义

$K$ 个参与方， $N$ 个数据样本 $D\triangleq\{\xi_i\}_{i=1}^N$ ，其中 $\xi\triangleq(\mathbf{x},y)$ 表示为特征和label。特征向量 $\mathbf{x}_i\in \R^{1\times d}$ 分布在 $K$ 个参与方中 $\{\mathbf{x}_{i,k}\in \R^{1\times d_k}\}_{k=1}^K$ ， $d_k$ 表示参与方的特征维度。有一方参与方拥有label，假设为参与方 $K$ 。则联邦数据集可以表示为： $D_k\triangleq\{\mathbf{x}_{i,k}\}_{i=1}^N，k\in [K-1]；D_K\triangleq \{\mathbf{x}_{i,K},y_{i,K}\}_{i=1}^N$ 。联邦训练模型：
$\min_{\Theta}L(\Theta, D)\triangleq \frac{1}{N}\sum_{i=1}^Nf(\theta_1,...,\theta_K;\xi_i)+\lambda\sum_{k=1}^K\gamma(\theta_k) \quad(1)$
其中 $\theta_k \in \R^{d_k}$ 表示第k个参与方的模型参数。 $f (\cdot)$ 和 $\gamma(·)$ 表示损失函数和正则器。 $\lambda$ 表示正则器的超参数。对于广义模型，如线性回归、逻辑回归、支持向量机等的损失函数可表示为
$f(\theta_1,...,\theta_K;\xi_i)=f(\sum_{k=1}^K\mathbf{x}_{i,k}\theta_k,y_{i,K}) \quad(2)$
联邦学习的目标就是每个参与方在不泄露本地数据和模型参数的前提下训练出最优的模型参数 $\theta_i$ 。

FedBCD算法

假设小批量 $S\sub D$ 则随机部分梯度
$g_k(\Theta, S)\triangleq \nabla_kf(\Theta;S)+\lambda\nabla_{\gamma}(\theta_k)\quad(3)$
让 $H_i^k\triangleq \mathbf{x}_{i,k}\theta_k$ ， $H_i\triangleq\sum_{k=1}^KH_i^k$ ，因此对于损失函数(2)有
$\nabla_kf(\Theta;S)=\frac{1}{S}\sum_{\xi_i\in S}\frac{\partial f(H_i,y_{i,K})}{\partial H_i}(\mathbf{x}_{i,k})^T\quad(4)$
为了计算本地 $\nabla_kf(\Theta;S)$ 每个参与方 $k\in[K-1]$ 需要发送 $I_S^{k,K}\triangleq\{H_i^k\}_{i\in S}$ 给拥有label的一方 $K$ ，有参与方 $K$ 计算 $I_S^{K,q}\triangleq\{\frac{\partial f(H_i,y_{i,K})}{\partial H_i}\}_{i\in S}$ ，然后发送给其他参与方 $k\in[K-1]$ 。 $I^{q,k}(·)$ 表示从参与方 $q$ 到 $k$ 收集到的信息集合。
对于任意损失函数，定义计算 $\nabla_kf(\Theta;S)$ 所需要的信息集合为：
$I_{S}^{-k}\triangleq \{I^{q,k}_S\}_{q\not=k} \quad(5)$
公式(3)便可写成如下：
$g_k(\Theta, S)= \nabla_kf(I_{S}^{-k},\theta_k;S)+\lambda\nabla_{\gamma}(\theta_k)\quad(6)$
$\triangleq g_k(I_{S}^{-k},\theta_k;S)$
最后整体的梯度可以表示如下：
$g(\Theta;S)\triangleq [g_1(I_{S}^{-1},\theta_1;S);...;g_K(I_{S}^{-K},\theta_K;S)]$
对任意一个参与方的 $\theta$ 更新： $\theta_k = \theta_{k}-\eta g_k(I_{S}^{-k},\theta_k;S)$
下图是一个并行的FedBCD-p算法:
在这里插入图片描述

可以看出模型每训练Q轮进行一次通信 $Exchange({1,2,...,K,S})$ 。通信有两种：①是参与方 $k\in[K-1]$ 计算 $I_S^{k,K}$
发送给持有label的参与方 $K$ ，然后有参与方 $K$ 计算 $I_{S}^{K,k}$ 发送给其他参与方；②是其他参与方之间的通信。