Summary
- 针对联邦学习的场景,提出了模型替换的针对模型中毒的后门攻击。主要是在含有后门数据的数据集中训练后门模型,然后用大权重让后门模型在server聚合的时候有更多机会保留,从而在不影响主要任务的前提下。
- 通过实验进行了验证,针对比较简单CIFAR-10图像分类和单词预测,表现都比较好。而且只进行一轮攻击,后门模型也可以较好的保存(相较于之前),实验发现在训练后期进行后门注入的模型持续轮次越多。
Method
-
攻击背景
- FL会因为保护client的隐私而不会过多知道client的信息,这也就让恶意的client有比较大的操作空间。
- 恶意的client可以控制本地用于训练的数据和lr,epoch等,还可以对上传的更新模型进行一系列操作。
-
攻击目标
- 本文的攻击方法目的在全局模型在主要任务上的准确度要高,同时在后门子任务上的准确率也要高。而传统的毒化攻击会改变大部分的输入空间的准确率。
-
语义后门
- 语义后门可以导致有某种的特征的输入输出特定的label。
- 对于语义图像后门,攻击者可以选择其他数据中有的特征,也可以选择只有攻击者特有的特征。
- 之前的后门攻击研究了像素模式类型,这类攻击需要修改输入图像来满足特定的像素模式完成攻击。本文提出的模型替换可以引入语义后门和像素模式后门,但是本文主要研究攻击危害更大的基于语义的后门。
-
构建攻击模型
-
Naive approach
- 比较简单的方法就是在后门数据上训练模型,训练的时候应该包括后门数据和正常的数据。这种方法直接将更新应用于全局模型,引入后门。
- 这种简单的方法不适合联合学习。聚合抵消了后门模型的大部分贡献,联合模型很快就忘记了后门。攻击者需要经常选择,即使这样中毒也非常缓慢。在我们的实验中,我们使用简单的方法作为基线。
-
模型替换
-
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FG4o3faV-1672968641398)(assets/image-20221225112935-3qatzhm.png)]
-
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3YiAEkrd-1672968641400)(assets/image-20221225143825-8lgr7vu.png)]
- 其中 L t + 1 L_{t+1} Lt+1是攻击者提交的模型更新[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OZb5oHxv-1672968641400)(assets/image-20221225144101-wku7qzo.png)]
- 这里的X在恶意client端训练开始前初始化为下发的全局模型 G t G^t Gt,然后如算法2,对X在后门数据集上进行训练后再通过上面的式子产生本地端更新模型。
- γ = n μ \frac{n}{μ} μn,不能确定这个缩放因子的可以每轮逐渐增大。并根据本地t+1模型在后门任务的精度来判断缩放因子。
-
提高一轮攻击的持久性和避免server对模型的异常检测
- 将模型异常检测纳入损失函数,奖励准确性高的模型,惩罚偏离server任务“异常”的模型[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Xi4j0KCa-1672968641401)(assets/image-20221225152359-hwxbcqc.png)]
-
-
Experiment
ImageClassify
-
100个client,每次选10个,模型使用Resnet18。数据分割成non-IID .
-
我们选择了三个特征作为后门:绿色汽车、带有赛车条纹的汽车和背景中带有垂直条纹墙的汽车。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iWTp95Vc-1672968641402)(assets/image-20221225152601-w0ai9mz.png)]
-
训练的时候攻击者就要包含后门数据和普通数据,这样可以保证在主要任务上的准确性。
参与者的训练数据非常多样,后门图像仅代表一小部分,因此引入后门对联合模型的主要任务准确性几乎没有影响。 -
这里的恶意模型数据集是640张正常的图像,加上上面每个特征的后门图像拿出了3张验证之后所有的用于训练。
-
实验结果
-
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EPqrT1cu-1672968641402)(assets/image-20221225152959-fguz32r.png)]
- 可以看出单轮攻击后会出现后门准确值的衰减。
- 这里后门攻击效果,条纹墙要好于绿色车,可能是因为绿色车更贴近良性数据。
在单词预测中一些不常见的单词组会与driving Jeep也容易被遗忘。 - 而右图是多个client,相当于会重复攻击,实验中有10个左右client就可以达到不错的效果。
-
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-A2FeHXMX-1672968641403)(assets/image-20221225153256-dywn40e.png)]
- 这个实验是针对在多少轮进行攻击的效果,可以看出越往后模型接近收敛的时候实施攻击,可以保留的轮次越多,效果越好。
-
Word-prediction
- [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3Rb2i0RV-1672968641403)(assets/image-20221225153941-ufh0evd.png)]
- 和图像分类一样,不同的后门效果有所不同,什么贝叶斯属于中,预测词属于比较流行或者不流行的两个极端相比需要更少的更新范数。
- 实验中,较小的γ会让主要任务有比较高的准确率,而且较大的γ不会对全局模型准确性有较大的损失,所以攻击者选取γ的余地挺多。
Defence
- 对模型进行加密聚合,虽然保护了模型的机密性,但是也让对模型的异常检测变得困难。
- 拜占庭式容忍聚合机制可以减轻后门攻击,代价是丢弃许多良性参与者的模型更新,即使在没有攻击的情况下,也会显著降低生成的模型的准确性,并侵犯训练数据的隐私。
- 参与者级别的差异隐私可以降低后门攻击的有效性,但只能以降低模型在主要任务上的性能为代价。
Related WORK
- 之前针对机器学习的攻击主要利用数据中毒或者直接插入后门组成改变模型。但是对于有大量client的FL来说,没有攻击效果,大量好的模型会抵消中毒特征。
- 传统的防御就是剪枝或者检查数据的异常值,过滤什么的,但是需要检查者获取数据或者真实的模型,所以不能用于FL。
- 安全多方计算无法保护模型完整性,就是可以保护模型不被外人得到,但是无法保护模型有问题。安全聚合也能保护机密性,但是对于模型中毒也无法方法,反而使其难以检测。
- 还将了defence中关于拜占庭容错分布式学习和参与者级别差分隐私的一些内容。