【联邦学习-后门攻击论文】FLIP: A PROVABLE DEFENSE FRAMEWORK FOR BACKDOOR MITIGATION IN FEDERATED LEARNING

题目FLIP: A PROVABLE DEFENSE FRAMEWORK FOR BACKDOOR MITIGATION IN FEDERATED LEARNING
作者Kaiyuan Zhang, Guanhong Tao, Qiuling Xu, Siyuan Cheng, Shengwei An, Yingqi Liu, Shiwei Feng, Guangyu Shen, Pin-Yu Chen, Shiqing Ma, and Xiangyu Zhang
来源AAAI, 2023
问题阐述现有的防御在应对后门攻击显得不足
解决方法设计了一种新的防御方式,利用触发器反转、对抗性训练、拒绝低置信度样本等方式实现对后门攻击的防御
代码code
其他

摘要

联邦学习是一种分布式学习范式,它使不同的参与方能够一起训练模型,以实现高质量和强大的隐私保护。在这种情况下,参与者可能会受到损害,并通过毒化数据(或梯度)来执行后门攻击。现有的基于鲁棒聚合和经认证的FL鲁棒性的工作并未探讨强化良性客户端如何影响全局模型(以及恶意客户端)。在这项工作中,我们从理论上分析了交叉熵损失,攻击成功率和干净精度之间的联系。此外,我们提出了一种基于触发器逆向工程的防御方法,并表明我们的方法可以有保证的实现鲁棒性改进(即,降低攻击成功率),而不影响良性精度。在不同的数据集和攻击设置进行全面的实验。与九种SOTA防御方法对比的结果表明了我们的方法在单点和连续FL后门攻击上的经验优势。

一、背景和问题

① 联邦学习(略)
② 后门攻击(略)
③ 现有防御的不足:
现有防御分类:(不同的论文对分类的标准不一致)

  • 基于鲁棒聚合:检测并拒绝恶意权重
  • 基于认证:在有限量级的后门存在的情况下提供鲁棒性保证

缺陷:

  • 服务器端需要大量干净样本破坏了隐私
  • 需要检查模型权重,会导致隐私泄露
  • 拒绝良性客户端模型导致全局模型精度下降,或聚合了恶意模型导致后门攻击依旧发生
  • 多数防御在单点攻击中有效,攻击是连续的表现不好

二、提出的方法

1、Threat Model

攻击者通过在中毒样本上训练的恶意本地模型发起攻击,目标是向全局模型注入后门,实现高攻击成功率,而不会对干净样本的模型准确性造成任何明显影响。在良性客户端上,不知道关于触发器的信息。基于接收到的全局模型权重及其本地数据,后门触发器在良性客户端上进行反转。在干净数据执行标准训练,在增强数据(用反向触发器标记的干净样本)执行对抗训练。服务器正常聚合。防御者无法控制任何恶意客户端,这些客户端可以执行任何类型的攻击,攻击可以发生在任何轮次。后门类型为静态后门。

2、方法

在这里插入图片描述
这篇文章的思路就是,首先利用反转策略在良性样本上生成一些类似于后门触发器的触发器,但是不改变标签,然后让各个客户端继续训练,那么后门样本在训练中相当于被这些增强的数据抵消了,最终攻击性大大降低,最后在预测阶段,引入置信度,将可疑样本去除掉。
① 反转触发器
触发器反转利用优化方法来反转最小输入模式,该模式将一组干净图像的分类结果翻转到目标类。
使用一种 通用触发反转策略,其目的是生成可以将所有类(除了目标类)的样本翻转到目标类的触发器。
在这里插入图片描述
a 正常的触发器,b含有触发器的样本,c经过触发器反演后的增强样本。

Class Distance 类间距离
后门样本制作公式:(这个公式是通用的,后门样本都可以通过这种方式制作)
x s → t ′ = ( 1 − m ) ⋅ x s + m ⋅ δ x^{'}_{s \to t} =(1-m) \cdot x_s + m \cdot \delta xst=(1m)xs+mδ
s s s为样本正常类别, t t t为后门目标类别, m m m为掩码, δ \delta δ为触发模式。
优化目标:
L o s s = L ( M ( x s → t ′ ) , y t ) + α ⋅ ∣ ∣ m ∣ ∣ Loss =L(M(x^{'}_{s \to t}), y_t) + \alpha \cdot ||m|| Loss=L(M(xst),yt)+α∣∣m∣∣
M M M为模型, L L L为交叉熵损失, ∣ ∣ m ∣ ∣ ||m|| ∣∣m∣∣表示绝对值总和。

类间距离 d s → t d_{s \to t} dst ∣ ∣ m ∣ ∣ ||m|| ∣∣m∣∣衡量,由触发器的大小来决定。如果很容易从源类到目标类生成一个小的触发器,那么两个类之间的距离就很小。否则,类距离很大。此外,如果所有的类距离都很大,则该模型是鲁棒的,否则可以很容易地在两个类之间生成一个小的触发器。类间距离与模型本身的鲁棒性而不是样本的数量有关。

Cached Warm-up
不同的标签对具有不同的距离,通过模型强化来扩大标签对的距离可以提高模型的鲁棒性并有助于减少后门
现有的触发器反转方法优化标签对的所有组合,导致时间复杂度为(O(n2))。为了降低触发器优化成本,本文首先生成通用触发器,将每个标签作为目标并优先考虑有希望的标签对,具有线性时间复杂度(O(n))。

具有更大距离容量的对具有更大的潜力。具体来说,需要知道将源类翻转到目标类的难度,用优化期间的损失变化来度量。即远离目标类的类具有较大的损失方差,因为它们与目标类有很大的差异;一旦预测标签翻转到目标类别,损失值将非常小。在优化过程中,计算源类和目标类之间的损失方差。FLIP对每个类重复上述过程,并且利用不同源标签的损失变化来近似类间距离,其保存在距离矩阵或缓存矩阵中。FLIP然后优先考虑有希望的配对,即那些具有大距离的对。当客户端被选择进行强化时,FLIP将为每个源类生成标签特定的触发器,并更新源类和目标类之间的距离矩阵。

伪代码
在这里插入图片描述
对于每一轮训练中的每一个参与训练的客户端,首先进行本地训练,再进行服务器聚合,最后使用全局模型推断,分别为代码5、6、7行。该防御主要基于客户端,所以很多操作是在客户端更新时进行的。
代码9到14行,对于每一轮参与训练的客户端,首先看这个客户端是不是第一次参与训练,如果是,则将所有的类与目标类的类间距离保存到一个缓存矩阵,并从该矩阵中选择最可能(最大距离)的标签对。如果不是第一次参与训练,则该客户端中已经有了缓存矩阵,直接选择最可能的标签对。
15到18行,根据选择的标签对是否在数据集中进行对称反转或非对称反转。
19行在干净数据和增强数据上进行对抗性训练。
② 模型强化
对称强化和非对称强化
(通过生成触发器来执行强化过程的)
给定一对标签1和标签2,触发器反转有两个方向,从1到2和从2到1。简单的做法是在两个方向上反转。然而,由于联邦学习中客户端数据non-iid,即本地客户端的训练数据可能非常不平衡,某些标签的样本可能很少甚至没有,所以在两个方向上反转是不太可能的。
在模型强化(对抗训练)期间,根据距离矩阵,在每次迭代中选择有希望的类对进行强化。根据数据可用性将模型强化分为双向或单向,即对称或非对称模型强化。如果类标签对的两个标签有足够数据,则通过生成用于两个方向的触发器来执行对称强化。如果仅存在该对中的一个标签的样本,则仅强化从标签到目标的方向。
在这里插入图片描述
输入:模型参数,数据
输出:增强数据
无论是对称还是非对称,首先进行触发器初始化:如果预先设定了,就直接按照预先设定的,没有则随机初始化。

  • 先看非对称的情况,此时本地数据中只有源标签数据,没有目标标签数据,11到16行,初始化触发器之后,按照正常的后门样本生成公式,a到b时,a是干净标签,b是目标标签,a中含有触发器,错误将a预测成b,然后更新a到b距离矩阵
  • 对称情况,源标签数据和目标标签数据足够,4到10行,初始化触发器之后,同时进行两个方向的触发器生成。即a到b时,a是干净标签,b是目标标签,a中含有触发器,错误将a预测成b;b到a时,b是干净标签,a是目标标签,b中含有触发器,错误将b预测成a。然后更新a到b和b到a方向的距离矩阵。
    (模型强化就是往样本中插入触发器,主动生成含有触发器的数据,但不改变标签)

③ 拒绝低置信度样本
由于对良性客户端数据强化对抗恶意客户端上的数据中毒,因此聚合模型在预测后门样本时往往具有较低的置信度(而对良性样本的置信度基本上是完整的)。在全局模型的推理阶段,在softmax层之后应用阈值 τ \tau τ来过滤掉预测置信度较低的样本,这显著提高了模型在联邦学习中对后门攻击的鲁棒性。

3、理论分析

定理1:损失变化的上下限

添加防御之后和添加之前损失变化的上下限:
在这里插入图片描述
L g ′ L^{'}_g Lg 为有防御的全局模型损失
L g L_g Lg 为无防御的全局模型损失
Δ W = W ′ − W \Delta W =W^{'}-W ΔW=WW 为添加防御前后的权重差异
I I I 为类别数
目标是分析ASR至少会减少多少,ACC最多会保持多少。因此,研究后门数据的下限(最小损失),它表明了减少ASR的后门防御的最小改进。研究干净数据的上限(最大损失),因为它们表明了最坏情况下的准确度下降。
通过定理1:
Δ m i n _ l o s s = ∑ s = 1 n b m i n t [ ( x s + δ ) Δ W ] t − ∑ s = 1 n b ∑ i = 1 I q s , i [ ( x s + δ ) Δ W ) ] i \Delta min\_loss = \sum_{s=1}^{n_b} min_t[(x_s+\delta)\Delta W]_t - \sum_{s=1}^{n_b} \sum_{i=1}^{I} q_{s,i}[(x_s+\delta)\Delta W)]_i Δmin_loss=s=1nbmint[(xs+δ)ΔW]ts=1nbi=1Iqs,i[(xs+δ)ΔW)]i
Δ m a x _ l o s s = ∑ s = 1 n c m a x t ( x s Δ W ) t − ∑ s = 1 n c ∑ i = 1 I q s , i ( x s Δ W ) i \Delta max\_loss = \sum_{s=1}^{n_c} max_t(x_s\Delta W)_t - \sum_{s=1}^{n_c} \sum_{i=1}^{I} q_{s,i}(x_s\Delta W)_i Δmax_loss=s=1ncmaxt(xsΔW)ts=1nci=1Iqs,i(xsΔW)i
n c n_c nc 为干净样本数
n b n_b nb 为后门样本数
x s + δ x_s + \delta xs+δ 为后门样本

定理2:通用鲁棒条件

α \alpha α=在这里插入图片描述
b = [ b 1 , . . . , b d ] b=[b_1, ... , b_d] b=[b1,...,bd], d是样本维度。
在这里插入图片描述
对于所有 ∣ ∣ ϵ ∣ ∣ ∞ ≤ α ||\epsilon||_\infty \leq \alpha ∣∣ϵα, Δ m i n _ l o s s ≥ 0 \Delta min\_loss \ge 0 Δmin_loss0

在这里插入图片描述

三、仿真实验

攻击
单点攻击:攻击者仅参与一轮,但可以有多个攻击者(DBA)
连续攻击:攻击者在每一轮训练都进行攻击
对比的现有防御:Krum、Bulyan Krum、RFA 、FoolsGold、Median、Trimmed Mean、Bulyan Trimmed Mean、FLTrust、DnC
数据集:MNIST、F-MNIST、CIFAR10
数据为 non-iid 的,Dirichlet distribution α \alpha α = 0.5
中毒比率表示在每个训练批次中添加的后门样本数,MNIST和Fashion-MNIST中毒比率为20/64,CIFAR-10为5/64。
评价指标:ASR、ACC

1、评估消除后门的效果

在这里插入图片描述
没有防御时,单点攻击可以在所有数据集上实现超过80%的ASR,同时保持超过77%的高主任务准确率。FLIP可以将所有3个数据集的ASR降低到8%以下,并将良性准确性下降保持在5%以内。FLIP在MNIST和Fashion-MNIST上的表现优于所有基线,在CIFAR-10上稍差。
在这里插入图片描述
连续攻击比单点攻击更具攻击性。在无防御时,前者的ASR比后者高3%-20%。所有现有的防御在连续攻击中均失败。在MNIST和Fashion-MNIST的大多数情况下,ASR保持接近100%,在CIFAR-10上高于63%。而FLIP将ASR降低到较低水平,并且精度下降在可接受的范围内。具体而言,FLIP将MNIST上的ASR降低到2%,而准确度下降在2%以内。对于Fashion-MNIST和CIFAR-10,ASR分别降低到18%和23%以下,与MNIST和单点攻击的结果相比,精度下降幅度大。
这是合理的,原因如下:首先,数据集的复杂性和连续的后门攻击可能增加恢复高质量触发器的难度。此外,在对抗训练准确度和模型的标准准确度之间存在权衡。对良性客户端进行对抗性训练会对准确性产生负面影响。然而,FLIP仍然优于现有的防御措施。

2、在与理论分析相同的设置上进行评估

验证理论分析的正确性。
对多类逻辑回归(即一个线性层、softmax函数和交叉熵损失)作为理论分析中的设置
以MNIST为例进行分析
FL系统中,一个全局服务器、一个良性客户端和一个恶意客户端
全局模型收敛然后攻击。
攻击者在图像中注入像素模式后门,并将源图像标签交换为目标标签
在这里插入图片描述
无论是单点还是连续攻击的ASR都降低到了5%左右,准确性下降在可接受的范围内。这一结果与我们对上述更复杂设置的观察一致。
在这里插入图片描述
不同设置下干净样本和后门样本的样本计数。其中数值代表被拒绝样本数量,与理论分析中的相对应。

3、适应性攻击

当攻击者知道FLIP的信息,FLIP仍然能在大多数情况下减轻后门攻击。
自适应攻击的步骤:(1)攻击者应用与良性客户端相同的触发器反转策略来获得反转的触发器;(2)攻击者将反向触发器标记到其本地图像上,并将其添加到后门攻击的训练阶段;(3)攻击者将更新后的模型权重提交给全局服务器。
在这里插入图片描述
即使在自适应攻击设置下,FLIP仍然可以减轻MNIST和Fashion-MNIST两者中的后门攻击。在CIFAR-10中,攻击精度下降,自适应攻击效果不佳。这表明,即使攻击者在中毒训练过程中知道了该技术,在FLIP框架下,良性客户端仍然可以有效地降低攻击者的中毒置信度,并将攻击成功率保持在较低的范围。

4、消融实验

  • 对抗训练的效果
    在这里插入图片描述

在没有对抗性训练的情况下,恶意攻击者可以成功地注入后门模式,即使具有高于 τ \tau τ的高置信度阈值。根本原因是良性客户端中的对抗性训练强化了模型对恶意样本的抵抗能力,并降低了恶意样本的置信度。
MNIST的ASR与没有防御相比下降,原因是MNIST数据集特征更简单,随着许多良性客户端并行地连续训练,很容易忘记注入的后门模式,从而降低攻击者的中毒置信度并拒绝部分样本。
结果表明,对抗训练有效降低攻击者在后门训练期间的后门样本的置信度,与理论分析一致。

  • 置信阈值的影响
    在这里插入图片描述
    阈值是FLIP中的关键组成部分,评估了有阈值和没有阈值的防御。上表中阈值为0。
    在没有阈值的情况下,尽管ASR在一定程度上降低,但与表2中的FLIP结果相比,仍然高得多。根本原因是对抗性训练确实有助于降低后门样本的置信度,但是,如果不应用置信度阈值来拒绝后门样本,ASR仍然很高。
  • 评估其他触发反演技术

在这里插入图片描述
FLIP与任何触发反转技术兼容。
使用ABS触发器反转技术。
结果与前面在表1和表2中显示的结果是一致。观察到,在连续攻击中,ABS的反转保持了比表2中的71%更高的干净准确率74%,并且它们都将ASR降低到低水平,接近22%。然而,在单点进攻中,带ABS的翻转仅将ASR降低到8%。根本原因是ABS在一个小的尺寸范围内颠倒了有效的触发器,而文中的方法在强化模型方面更加积极。
结果表明,Flip结合各种下游触发反转技术对抗后门攻击总体上是有效的。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值