如何后门攻击联邦学习

最新推荐文章于 2025-03-27 15:17:30 发布

rebibabo

最新推荐文章于 2025-03-27 15:17:30 发布

阅读量971

点赞数 2

分类专栏：联邦学习文章标签：网络

原文链接：https://arxiv.org/abs/1807.00459

版权

联邦学习专栏收录该内容

5 篇文章

订阅专栏

【2020 ICAIS】How To Backdoor Federated Learning

原文链接：https://arxiv.org/abs/1807.00459

文章目录

【2020 ICAIS】How To Backdoor Federated Learning

介绍

攻击者可以是一个或者多个参与者，使用约束和归一化技术在后门数据上训练一个模型，并提交结果模型，该模型取代联合模型作为联邦平均的结果，参与者可以直接影响联合模型的权重，且以任何有利于攻击的方式进行训练，例如任意修改其局部模型的权重和，后门攻击如下图所示。

后门攻击者开发了一种通用的约束和归一化技术，将规避异常检测纳入攻击者的损失函数，由此产生的模型甚至可以避开相对复杂的检测器。

联合学习

联合学习通过迭代将局部模型聚合为联合全局模型，将深度神经网络的训练分部到n个参与者，它的优势在于效率（n可以是数百万）和隐私。本地训练数据永远不会离开参与者的机器，因此联邦模型可以在敏感的私人数据上训练。

方法
$\mathcal L_{class}(L,D)$	在训练集D，模型L上的分类损失函数
$\nabla l$	损失函数l的梯度
全局服务器输入
$G^t$	第t轮联合全局模型的训练结果
$E$	客户端迭代次数
$l r$	学习率
$b s$	每次训练学习的样本个数
客户端输入
$\mathcal D_{local}$	本地需训练数据分割成大小为bs的块
$D_{backdoor}$	后门数据

算法一（本地训练模型）

首先初始化模型和损失函数

迭代E次：

提取出batch个本地训练数据：

利用提取到的这个数据更新梯度

返回迭代完后的最终梯度模型

在每一轮迭代t中，中央服务器随机选择m个参与者中的一个子集 $S_m$ ，并将当前联合模型 $G_t$ 发送给它们。选择数量m涉及到了训练效果和训练效率的平衡，每个被选中的参与者通过算法1对其本地数据进行训练，将这个模型更新为一个新的本地模型 $\mathcal L_{t+1}$ ，并将差值 $\mathcal L_{t+1}-G^t$ 返回给中央服务器。通过对模型权重进行随机掩码，即少计算一些模型权重，可以减少通信开销。中央服务器对接受到的数据进行平均更新获得新的联合模型:
$G^{t+1}=G^t+\dfrac \eta n\sum\limits_{i=1}^m(L_i^{t+1}-G^t)$
全局学习率 $\eta$ 控制每一轮更新的模型权重，如果 $\eta=mn$ ，那么全局模型完全替代为局部模型的平均值。与同步分布式SGD相比，联邦学习减少了每轮参与者的数量，收敛速度更快。

联邦学习假设参与者的本地训练数据集合比较少，且来自不同的分布，因此局部模型往往容易过拟合，偏离全局模型，表现较低的精度，对局部模型进行平均可以平衡它们的贡献，从而可以产生一个精确的联合模型。

模型收敛后，学习不会停止，联邦学习模型在整个部署过程中由参与者不断更新，因此，恶意的参与者总是有机会被选中并影响模型的。

对抗性模型替换

攻击者不控制参与者的更新，也不控制任何参与者的训练，我们假设它们通过正确的将联邦学习规定的训练算法应用于它们的本地数据来创建自己的本地模型。

这种设置与传统的中毒攻击区别在于，后者假设攻击者控制了相当一部分训练数据，相比之下，联合学习中，攻击者控制了整个训练过程，但只针对一个或少数几个参与者。

攻击目标

攻击者希望联邦学习产生一个联合模型，该模型在其主任务和攻击者选择的后门子任务上都实现了较高精度，并在攻击后的多轮中在后门子任务上保持了较高的精度。相比之下，传统的数据中毒旨在改变模型在很大一部分输入空间上的性能，而拜占庭攻击旨在防止收敛。

语义后门导致模型在未修改数据输入的前提下产生了攻击者选择的输出，例如，一个后门图像分类模型将攻击者选择的标签分配给所有具有特定特征的图像，例如，所有紫色的汽车被错误地归类为鸟类。

语义后门不需要攻击者在测试时修改数字图像，它会导致模型对没有被攻击者改变地输入进行错误分类，在大规模部署联邦学习模型中，语义后门是很危险的。

攻击模型

攻击者可以在后门输入上训练模型，每个训练样本都应该包括真实标签和后门输入指定的标签，以帮助模型学习到差异，攻击者还可以改变局部学习率和局部迭代次数，来最大限度地对后门数据进行过拟合。

聚合抵消了这种攻击的大部分影响，联合模型很快就会忘记后门，攻击者需要被经常选择到，这样中毒是十分缓慢的，我们使用恶意模型X替代成新的全局模型 $G^{t+1}$ ：
$KaTeX parse error: Expected group after '_' at position 25: …frac \eta n\sum_̲\limits{i=1}^m(…$
因为是非 $i . i . d$ 的训练数据，每个局部模型可能与当前全局模型相差很远，随着全局模型的收敛，这些 $KaTeX parse error: Expected group after '_' at position 5: \sum_̲\limits{i=1}^m(…$ ，因此攻击者可以对需要提交的模型进行以下的操作：
$\widetilde{L}_{m}^{t+1}=\frac{n}{\eta} X-\left(\frac{n}{\eta}-1\right) G^{t}-\sum_{i=1}^{m-1}\left(L_{i}^{t+1}-G^{t}\right) \approx \frac{n}{\eta}\left(X-G^{t}\right)+G^{t}$
这种攻击通过 $\gamma=\dfrac n \eta$ 扩大后门模型X的权重，以确保后门能在平均聚合中发挥作用，并将全局模型替换成为X，这在任何一轮联邦学习中都有效，但在全局模型接近收敛是更加有效。

提高持久性，规避异常检测

因为攻击者可能只会被选中进行单轮训练，所以它们希望在替换模型后，能够尽可能久的停留在模型中，当模型被良性参与者更新是，防止后门被遗忘是很重要的。

我们的攻击实际上是一种双任务学习，全局模型在正常训练期间学习正常主任务，在攻击者被选中的回合中学习后门任务，目标是在攻击者的回合之后，对这两个任务都保持较高的精度。

约束和归一化

这是一个通用的方法，能够生成一个在主任务和后门任务上都具有很高精度的模型，但不会被聚合器的异常检测器察觉到。我们通过使用一个目标函数：

奖励模型的准确性，准确性越高，评分越高
惩罚它偏离聚合器认为“正常”的目标函数，将规避异常检测纳入训练，数据越异常，评分越低

根据kerckhoff假设，我们假设异常检测算法对于攻击者来说是已知的。

算法2（约束和归一化方法）

我们通过添加异常检测箱 $\mathcal L_{ano}$ 来修改目标函数：
$\mathcal L_{model}=\alpha\mathcal L_{class}+(1-\alpha)\mathcal L_{ano}$
由于攻击者的训练数据既包括良性输入，也包括后门输入，所以 $\mathcal L_{class}$ 同时捕获了主任务和后门任务的准确性。 $\mathcal L_{ano}$ 用于检测异常值，如权重矩阵之间的p范数距离过大而进行惩罚。超参数 $\alpha$ 控制着规避异常检测的重要性，它控制着两个评分之间的比率。