【ClippedClustering】An Experimental Study of Byzantine-Robust Aggregation Schemes in FL-CSDN博客

本文链接：https://blog.csdn.net/qq_41444809/article/details/129354779

文章探讨了联邦学习环境中针对拜占庭攻击的聚合策略，提出了一种新的ClippedClustering方案，以增强基于聚类的聚合方法的鲁棒性。研究了包括噪声、ALIE、IPM、SF和LF在内的多种攻击模型，并分析了不同聚合方案的响应，发现ClippedClustering在抵御某些攻击方面表现出色，但对特定攻击如LF敏感。此外，还讨论了客户端比例、批量大小等因素对鲁棒性的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

An Experimental Study of Byzantine-Robust Aggregation Schemes in Federated Learning 联合学习中拜占庭-鲁棒聚合方案的实验研究

联合学习中拜占庭-鲁棒聚合方案的实验研究
)

Abstract

本文提出：使用联邦学习中的两种流行算法FedSGD和FedAvg，对不同攻击下的拜占庭-鲁棒聚合方案进行了实验研究。提出了一种新的ClippedClustering方案，通过自动剪切更新来增强基于聚类的方案的鲁棒性。在五种攻击场景提供八种聚合方案。

1.INTRODUCTION

三种拜占庭健壮技术：

基于冗余： 为每个客户端分配冗余更新，使用冗余来消除拜占庭故障的影响。
开销过大，最坏每个节点计算 $\Omega(M)$ 次更新， $M$ 为拜占庭客户端数量。
基于信任： 假定某些客户端或数据集在过滤和重新加权本地模型更新时是可信的。
由于用户隐私，受信任的客户端/数据集不总是对服务器可用。
根据鲁棒聚合算法，估计更新的鲁棒聚合方案
鲁棒聚合方案可以有效聚合更新，而不需要可信的客户端或数据集。

GeoMed ， Krum ， TrimmedMean ， Median , CC，只有有限的拜占庭鲁棒性，（只建立收敛到极限，只保证聚合方案的输出与真梯度有正的内积），且需要强大的假设，对新新攻击的脆弱性。

缺陷：
ALIE攻击 可以通过利用客户端更新之间的经验方差来规避TrimmedMean和Krum(如果方差足够大的话)。
内积操纵(IPM)攻击 通过操纵真实梯度和稳健聚合梯度之间的内积为负，对Median和Krum构成了重大威胁。
其他方案，如AutoGM和聚类，仅提出了经验评估。

当前研究的不足：
数据异质性对鲁棒聚合方案的影响很少被评估，通常假设本地数据独立且同分布 IID。

本文贡献：

调查现有拜占庭攻击策略，以及相应的鲁棒聚合方案。
基于现有聚类的聚合方案，提出ClippedClustering，应用自动剪切技术来减轻放大的本地更新的影响。
在五个拜占庭攻击场景下测试八种鲁棒聚合规则。

S2 FL问题，FedSGD & FedAvg；S3 威胁模型； S4 鲁棒聚合方案；S5 ClippedClustering 方案； S6 实验

2.FEDERATED LEARNING

2.1 问题定义

寻找参数向量 $w$ 使得分布式优化模型最小：

在这里插入图片描述
$K$ ：客户端总数
$F_k(·)$ ：本地数据的经验风险

$F_k(w)=\frac{1}{n_k}\sum\limits_{j\in[n_k]}{l(w;x_{k,j})}$

$l(w;x_{k,j})$ ：用户指定的损失函数
$x_{k,j}$ ：一个训练样本
$n_k$ ：客户端 $k$ 拥有的训练数据集的大小

FL中数据通常是不平衡的，数量不等。本文假设数据平衡，

2.2 联邦学习优化

2.2.1 FedSGD

即随机梯度下降，SGD。

2.2.2 FedAvg

每轮训练随机选取客户端子集进行训练。

本文假设不超过一半的恶意客户端，并要求全部客户端参与训练。

2.2.3 Update aggregation

以上两种使用均值聚合，鲁棒性差。

3. THREAT MODELS

在这里插入图片描述

3.1 Noise

实验中，噪声的均值和方差都是0.1

3.2 A Little is Enough (ALIE)：

A Little is Enough (ALIE) 假设良性更新由正态分布表。利用客户端更新之间的高经验方差，上传一个方位内的噪声而不被检测到。

对于每个坐标 $i\in[d]$ 攻击者计算良性更新的平均值 $(\mu_i)$ 和 $std(\delta_i)$ , 并将损坏函数 $\Delta_i$ 设置为 $\left(\mu_i-z^{\max } \delta_i, \mu_i+z^{\max } \delta_i\right)$ 范围内的值。
其中 $z^{\max }$ 范围 $0 - 1$ ，通常从累积标准正态函数中获得。

3.3 Inner Product Manipulation (IPM)

内积操纵(IPM)攻击 计算更新的真实均值和聚合方案的输出之间的负内积，使损失至少不会下降。

假设攻击者知道良性更新的均值。

$\Delta_1^t=\cdots=\Delta_M^t=-\frac{\epsilon}{K-M} \sum_{i=M+1}^K \Delta_i^t$

假设前 $M$ 个客户端是恶意的， $\epsilon$ 是控制恶意更新数量的正系数。均值变为：

$\frac{1}{K} \sum_{k \in[K]} \Delta_k^t=\frac{K-M(1+\epsilon)}{K(K-M)} \sum_{i=M+1}^K \Delta_i^t$

当 $\epsilon<\frac{K}{M}-1$ 时，IPM并不改变平均值的方向，而只是降低了它的大小。

$\frac{K-M(1+\epsilon)}{K(K-M)}>0$

使用均值作为聚合方案仍然可以收敛，但攻击可以绕过聚合方案的防御，并反转更新方向。

当 $\epsilon>\frac{K}{M}-1$ 时，均值符号改变，使用均值更新的话模型损失会增加。实验中设置 $\epsilon=0.5$ 和 $\epsilon=100$

3.4 Sign Flipping (SF)

SF翻转梯度的符号，攻击者通过梯度上升使得损失最大化。
FedSGD中上传负梯度，FedAvg中，翻转每个局部更新。

3.5 Label Flipping (LF)

LF 翻转每个训练样本的标签。

4 AGGREGATION SCHEMES FOR EVALUATION

Krum：
GeoMed：
AutoGM：
Median：
TrimmedMean：
Centered Clipping (CC)：
迭代地围绕中心剪辑更新。
Clustering：
计算参数更新之间的余弦距离，利用平均链接的聚类方法，根据余弦相似度将客户群体分为两组，最后使用Mean将更新聚合到最大的组中。

缺点：
聚类在某些情况下实现了优越的健壮性。使用余弦相似度聚类 只考虑相对方向，忽视每个向量的大小， 攻击者可以通过放大更新，不改变方向来欺骗集群方案。最终结果将无法收敛到最小值，而不被检测到。

在这里插入图片描述

ClippedClustering
在聚类之前对所有更新执行剪辑来增强前面提到的聚类聚合方案的鲁棒性。
$\tau$ 是一个裁剪值超参数，由服务器决定。按范数裁剪，而不是按值剪辑，更新向量的各个值如果超出预先设置的值就会被裁剪。
在 按范数剪辑 中，如果更新的范数超过阈值 $\tau$ ，则整个更新将进行缩放。对训练期间可以获取的每个向量的大小设置了最大值，防止攻击者在同一方向放大更新。
设计了一种 自动剪切策略来防御潜在的放大恶意更新 ，这是基于朴素余弦相似度的聚类方案不能很好地处理的。

保存当前迭代的更新规范，并使用历史的中位数自动设置 $\tau$ 。
原因：1. 现有研究证明自适应剪辑到中值范数可以应用于联邦学习，且不需要调优任何剪辑超参数。2. 中位数本身是集中趋势的可靠统计度量。假设大多数客户端是良性，恶意客户端无法控制中值范数。

在这里插入图片描述

Krum、GeoMed和AutoGM是典型的基于欧几里得距离的方案
GeoMed和AutoGM都是基于几何中位数
TrimmedMean, CC, Clustering和ClippedClustering都是基于均值的方案
Clustering和ClippedClustering都基于余弦相似度进行聚类，而ClippedClustering在聚类之前剪辑更新。

5 Adaptive Attack on ClippedClustering

在这里插入图片描述

假设攻击者知道聚合方案和来自良性客户端的所有更新。

攻击的想法是确保所有恶意更新都停留在最大的集群中，同时尽可能偏离正确的方向。

计算两个良性聚类的平均余弦相似度 $\delta$ ，作为恶意更新的界。

在这里插入图片描述
该约束保证了在基于平均链接进行分层聚类时，恶意组被包含在最大的集群中。

最小化问题相当于最大化 $e_1$ 和 $e$ 的夹角，限制条件是 $e_1$ 和 $e_0$ 的夹角要小于 $arccos\delta$

在这里插入图片描述
$\epsilon > 0$ 是个足够小的数字，（11）可以表示为：

获得恶意更新的单位向量，我们就可以通过剪切阈值 $\tau$ 来缩放幅度:

这种攻击适用于具有平均连接的聚集聚类，对于完全连杆，可以使用两个良性簇的最小余弦相似度替换 $\delta$ ，并用相似的方式解决。

6 EVALUATION

6.1 Experimental Setup

实验设置：

一个服务器+20个客户端
CIFAR-10、 MNIST
5个拜占庭客户端

非 iid 数据处理：
使用Dirichle分布 $p_l\backsim Dir_K(\alpha)$ 对非iid数据分布建模。将类 $l$ 的训练样本 $p_{l,k}$ 比例分配给客户端 $k$ 。 $\alpha$ 越小，非iid数据分区越强。对于所有非iid设置 $\alpha =0.1$

CIFAR-10数据集的Non-IID分区上客户端统计异质性的可视化，其中x轴表示客户端id, y轴表示类标签，散点的大小表示该客户端可用标签的训练样本数量。
在这里插入图片描述
在MNIST上，将ReLu作为激活函数，训练一个简单两层CCT神经网络。

FedSGD和FedAvg训练6000和600个通信轮。将MNIST和CIFAR-10的批处理大小分别设置为128和64。

FedSGD学习率：
在这里插入图片描述
**FedAvg学习率：**上传更新到服务器之前应用50个SGD步骤

6.2 Impact on the Mean Scheme

Mean容易受到影响

6.3 Impact on Robust Aggregation Schemes

对于高度非iid数据，应谨慎使用Krum、GeoMed、AutoGM和Median。
基于欧几里得的方案(即Krum, GeoMed和AutoGM)在完全没有攻击者的情况下，与其他方案相比，精度较低，特别是当数据集是非iid时。
Median和TrimmedMean在大多数情况下显示出类似的健壮性

6.4 Impact of Fraction of Malicious Clients

Krum、GeoMed和AutoGM 易受到IPM 0.5攻击
CC and Clustering 易受到 Noise 、SF、IPM 100攻击

Median、TrimmedMean和ClippedClustering对攻击更健壮。ClippedClustering倾向于受到LF攻击的影响

6.5 Impact of Batch Size

Mean, ClippedClustering, AutoGM, TrimmedMean和CC随着批大小的增加变得更加健壮。增加批处理大小时，方差趋于降低。

6.6 Impact of Adaptive Attack

ClippedClustering最多可以容忍15%的客户机受到攻击，而性能几乎没有下降。
对IID数据，CC在FedAvg上的表现比FedSGD好。非IID数据上，超过15%恶意客户端，模型无法收敛。

6.7 Pairwise Cosine Similarities

FedAvg与IID数据的更新显示出最高的成对相似性，这意味着它们的更新方向几乎相同。得益于此，基于集群的方案可以将良性更新分组在一起并排除恶意更新。