聚类联邦学习的拜占庭鲁棒性

rebibabo

已于 2023-03-13 14:19:24 修改

阅读量913

点赞数

分类专栏：联邦学习文章标签：聚类机器学习算法

于 2023-03-13 14:18:17 首次发布

原文链接：https://ieeexplore.ieee.org/document/9054676

版权

联邦学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

聚类联邦学习的拜占庭鲁棒性

【2020 ICASSP】On the Byzantine Robustness of Clustered Federated Learning
原文链接：https://ieeexplore.ieee.org/document/9054676

介绍

联邦学习假设：存在一个模型 $f_\theta:\mathcal X\rightarrow\mathcal Y$ ，能够同时满足所有客户端产生的分布 $\varphi_i$ ，这个假设可以用以下形式表达：

假设1:(FL) 存在参数 $\theta^*\in\Theta$ ，可以同时使得所有客户端产生的分布损失达到最小：
$R_i(\theta^*)\le R_i(\theta)\ \ \forall\theta\in B_\varepsilon(\theta^*),\ i=1,\cdots,m$
这里的 $R_i(\theta)=\int l(f_\theta(x),y)d\varphi_i(x,y)$ 是在分布 $\varphi_i$ 上的一个损失函数， $l$ 是一个合适的损失函数。

然而这个假设不一定总是满足，当：

一个或多个客户端不满足分布 $\varphi_i(y|x)\ne\varphi_j(y|x)$
模型 $f_\theta$ 不能同时适应所有的分布

聚类联邦学习(Clustered Federated Learning)，简称CFL，产生于上述假设1，并且能够解决客户端持有和聚类结构不一致分布的数据的问题。

**假设2:(CFL) ** 在所有客户端中存在一个集合 $KaTeX parse error: Expected group after '_' at position 36: …ts,c_k},\bigcup_̲\limits{i=1}^kc…$ ，使得任意一个子集 $c\in \mathcal C$ 满足传统的联邦学习假设。

拜占庭设置： 聚类联邦学习利用FL损失函数的集合特性，来识别聚类结构C，和FL相比，CFL不需要对FL的通信协议进行修改，适用于一般的非凸函数求极值问题，在聚类质量上有很强的数学保证。事实证明，常规的联邦学习在有错误和恶意客户端的存在下无法收敛，一个不良客户端就会损害整个联合训练模型，并且否认了其他所有正确客户端训练的成果。

为了缓解这个问题，现有的解决策略需要对联邦通信协议进行修改，这会使得计算成本很高，在本文中将探讨CFL这个框架在拜占庭式设置中的应用，即客户端存在一个有害子集。我们设置一个良性客户端为 $c_{benign}\in \mathcal C$ ，所有攻击客户端集合为 $\mathcal C_{adv}$ ，则全体客户端可以表示为 $\mathcal C=\{c_{benign}\}\cup \mathcal C_{adv}$ 。

左边第一幅图是传统的联邦学习框架，中间是聚合联邦学习框架，是传统联邦学习的扩展，通过自动将客户端分离到联合可训练数据分布的集群中，增加了鲁棒性和灵活性。右图是CFL在拜占庭设置中的应用，可以当作集群设置的特殊情况，只有最大的集群是良性的，其余客户端都是敌对的。

集群联邦学习

集群联邦学习可以通过检查余弦相似度，在客户端及其数据上可以推断出聚类结构C：
$\alpha_{i,j}:=\dfrac {<\Delta\theta_i,\Delta\theta_j >} {||\Delta\theta_i||\ ||\Delta\theta_j||}$
这个结果概括为下面定理：

定理1（分离定理+推论） 设 $D_1,D_2,\cdots,D_m$ 是m个客户端不同的本地训练集，每一个训练集都是产生于k个不同数据生成分布 $\varphi_1,\cdots,\varphi_k$ 中的一个分布，表示为 $D_i \sim\varphi_{I(i)}(x,y)$ ，令每个客户端的经验损失 $r_i(\theta)$ 都近似于真实风险 $R_{I(i)}(\theta)$ 对于每一个联邦学习目标 $\theta^*\ s.t.$
$\gamma_i:=\dfrac {||\nabla R_{I(i)}(\theta^*)-\nabla r_i(\theta^*)||} {||\nabla R_{I(i)}(\theta^*)||}\in[0,1)$
那么，在联邦学习目标的每一个解 $\theta^*$ ， $c_1,c_2$ 将是正确的：
$KaTeX parse error: Expected group after '_' at position 37: …g\ \mathop{min}_̲\limits{c_1\cup…$
如果：
$KaTeX parse error: Expected group after '_' at position 15: \mathop {max}_̲\limits{i\in c_…$
其中:
$H_{i,j}=-\gamma_i\gamma_j+\sqrt{1-\gamma_i^2}\sqrt{1-\gamma_j^2}$
一个稍弱，但更加简单的基于最大逼近误差的表述可以是：

推论1: 只要它保持：
$\gamma_{max}:=\mathop{max}\limits_{i=1,\cdots,m}\gamma_i<sin(\dfrac \pi {4(k-1)})$
算法： 聚类联邦学习算法以自顶向下的方式分离客户机群：从最初客户机集合 $c=\{1,\cdots,m\}$ 和初始化参数 $\theta_0$ ，客户端通过n次随机梯度下降迭代计算出权重更新 $\Delta\theta_i$ ，在传统联邦学习中，这些权重更新被传送到中央服务器，将会通过平均算法被聚合成一个全局模型。在CFL中，比前者更有优势，服务器计算出来余弦相似度矩阵 $\alpha$ ，基于这个，得到两个聚类候选者：
$KaTeX parse error: Expected group after '_' at position 37: …g\ \mathop{min}_̲\limits{c_1\cup…$
如果两个聚类之间的最大相似度
$\alpha_{cross}\leftarrow\mathop{max}\limits_{i\in c_1,j\in c_2}\alpha_{i,j}$
低于一个确定的阈值 $\alpha_{cross}^{thersh}$ ，那么主要的集群将分成两个候选集群，然后对每一个客户机集群分别进行模型聚合，在之后的通信回合也重复这个过程，现有的集群可能会使用相同的机制进一步细化，整个过程如下面算法给出：