BackdoorIndicator: Leveraging OOD Data for Proactive Backdoor Detection in Federated Learning

Restart222

已于 2024-08-20 13:39:54 修改

阅读量660

点赞数 21

分类专栏：论文阅读笔记文章标签：人工智能深度学习笔记

于 2024-08-20 13:32:58 首次发布

本文链接：https://blog.csdn.net/u011154053/article/details/141355960

版权

论文阅读笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

BackdoorIndicator: Leveraging OOD Data for Proactive Backdoor Detection in Federated Learning （Usenix Security 2024）

论文阅读笔记，保留自用

现有防御分类

（1）influence reduction

假设：与良性更新相比，后门更新是少数

防御措施：通过将模型更新范数限制在规定的范围内或向全局模型添加足够量的噪声来限制

缺点：对于能够继续参与训练过程，或者能够在单次全局轮次中控制多个客户端的强攻击者来说，他们仍然可以有效地注入后门

（2）detection and filtering

假设：引入后门任务使得上传的模型不同于参数空间中的良性更新。

防御措施：基于计算上传的模型参数的一些统计数据来设计机制从而识别后门更新，例如使用某些距离度量对接收到的模型参数进行评估

缺点：在某些系统设置和对抗策略下检测和抑制后门可能会失效。例如，对于高度非独立同分布的数据分布，与其他良性更新相比，某些学习率较小的后门攻击所导致的中毒更新可能更接近参数空间中的良性更新，从而无法检测到这种中毒更新。此外，攻击者可以制造统计上接近甚至与良性更新相同的后门更新。
在这里插入图片描述
当攻击者使用0.055 的中毒学习率时，FLAME 成功检测到所有后门更新，但随着攻击者降低学习率，TPR 会迅速衰减到 0。

（3）Robust Aggregation （MESAS: Poisoning Defense for Federated Learning Resilient against Adaptive Attackers, CCS 2023）

本文工作

基于两个关键：

（1）所有后门样本本质上都是良性数据集的分布外（OOD）数据

（2）随后在同一目标标签上注入的后门（不一定是相同的触发器）可以帮助保持先前注入的后门的准确性。

BatchNorm层的统计偏移影响

在训练期间，对于每个训练批次，BN 层利用从该批次计算出的经验均值和方差对前一层的输出进行归一化。所有批次的均值和方差的运行平均值用于推理过程中的归一化。在这种情况下，由于训练数据的变化，迭代 $t_{\mathcal{B}}$ 后估计的均值和方差逐渐偏离任务A的均值和方差，因此不再适用于评估维持效果。

下面实验的攻击过程：

从ta开始使用任务A的后门数据进行攻击，打到tb时停止攻击。tb开始，使用任务B的后门数据进行攻击。两个后门任务（语义后门和像素后门）的后门数据使用相同的目标标签。

在这里插入图片描述
解决方案：保存迭代 $t_{\mathcal{B}}-1$ 中估计的运行均值 $\mu_{t_{\mathcal{B}}-1}$ 和方差 $\sigma_{t_B-1}$ ，并在评估任务 A 时进一步用 $\mu_{t_{\mathcal{B}}-1}$ 和 $\sigma_{t_B-1}$ 替换估计的 BN 统计量。

在这里插入图片描述上述结果表明：在适当的评估下，随后植入的后门可以极大地增强先前注入的后门的持久性。

解释：后门样本是相对于目标类良性样本的分布外（OOD）样本。训练后门任务通常会构建后门样本和目标类之间的 OOD 映射，同时保持良性样本和目标类之间的原始分布内 (ID) 映射不受影响。对手停止训练后门任务时，仅引入ID映射，并逐渐删除OOD映射。在这种情况下，注入后续后门有助于维护之前的 OOD 映射，这要归功于相对于 ID 数据的共享 OOD 特征，即使对于不同的后门触发器和类型也是如此，因此可以保留之前植入的后门的准确性

基于这个特性，本文提出BackdoorIndicator，通过使用OOD数据构建指标任务。服务器收到所有上传的模型后，可以在纠正 BN 统计偏移后检查指标任务的准确性。指标任务的所有高精度更新都被视为可疑并从聚合中过滤掉。

需要解决的问题：

服务器不知道类型和触发器
服务器不知道潜在注入后门的目标标签

（1）所选的指标任务应该对所有潜在的后门有效，这意味着指标任务引入的 OOD 映射应该由任何类型的注入后门来维护

基于所有后门样本相对于目标类良性样本本质上都是 OOD 样本，选择一定数量的分布外样本，这些样本与良性数据集中的样本具有不同的真实标签，来构建指标数据集。

（2）从良性标签空间中均匀采样标签，并将标签分配给每个指标样本。（默认后门的目标标签一定包含在良性标签中？）

$D_o=\{(x_o^i,y_o^i)\}_{i=1}^N,\quad y_o^i\sim U(\mathcal{Y}_b)$

方法细节：

（1）使用L2范数作为惩罚项，用于控制指标任务对模型性能的影响。 $L=L_{task}+\lambda||w_{ind}-G^t||_2$

（2）检查指标准确度。16-24行伪代码

在这里插入图片描述

实验

攻击者假设：从任何周期开始进行连续的后门攻击，不限制后门类型和可以控制的客户端数量

防御者假设：无法访问本地客户端的原始数据或数据分布，可以白盒访问从参与客户端上传的模型。无法访问与本地客户端的原始数据分布相同的数据

基本设置：

数据集：CIFAR10、CIFAR100、EMNIST
模型：VGG16、ResNet18、ResNet34
Dirichlet采样模拟non-IID，参数值为0.2
客户端：从 100 个客户中随机选择 10 个聚合

评估指标：

true positive rate (TPR)：表明检测机制识别对抗性后门的程度。计算方式为正确识别的恶意更新与恶意更新总数的比率。
false positive rate (FPR)：指示检测机制区分后门更新和良性更新的能力。计算方式是被错误分类为恶意的良性客户端与良性更新总数的比率。
backdoor accuracy (BA)：攻击者停止中毒时后门任务在全局模型上的准确率

indicator设置：

CIFAR10任务：使用CIFAR100构建指标数据集
CIFAR100和EMNIST任务：使用CIFAR10构建指标数据集
指标数据集包含800个样本
可疑门限：CIFAR10和EMNIST–95，CIFAR100–85
每个全局轮次开始时，全局模型训练indicator任务200次迭代

实验结果

vanilla backdoor：将后门样本混合到正常样本中进行训练
PGD：使用投影梯度下降（PGD）来训练后门模型，该模型定期将模型参数投影到以上一次迭代的模型为中心的球上，以逃避范数剪裁防御，从而减轻影响来自异常大的更新
Neurotoxin：使用良性客户端不经常更新的参数来注入后门
Chameleon：通过利用样本关系来增强后门的持久性，并使用监督对比学习来训练后门模型

与其他检测机制相比，BackdoorIndicator 在所有考虑的对抗性设置下实现了最低的后门准确率和最高的 TPR。

具体分析：

BackdoorIndicator 可以有效检测vanilla注入的更多隐秘后门。vanilla的blend和edge。
BackdoorIndicator 还可以成功识别经过更高级算法训练的后门更新。1200轮时在3种高级算法的pixel触发器下。
BackdoorIndicator可以识别不同训练阶段植入的后门
BackdoorIndicator 仍然可以有效降低后门的准确性，即使其检测性能因攻击者在早期训练阶段注入后门而下降。Neurotoxin的blend，400轮时。解释：这是由于向远离收敛的模型注入后门的困难造成的：在接下来的训练过程中，良性更新更容易与后门更新发生冲突，导致即使没有后门更新，BA 也会缓慢增加防御
如果攻击发生在训练阶段的后期，BackdoorIndicator 精确区分后门更新和良性更新的能力就会更强。vanilla的pixel。FPR 从 25.7% 下降到 22.2%，并且随着攻击开始时间的延长，进一步下降到 15.0%。
除 BackdoorIndicator 和 Foolsgold 之外的所有评估方法均无法检测后门更新。

不同分布程度和中毒学习率

在这里插入图片描述
结论：

plr：无论plr如何变化，BackdoorIndicator都能稳定识别恶意更新。然而，plr 的变化会极大地影响其他方法的性能。 FLAME和Multi-Krum可以有效识别使用大plr训练的后门更新，而无法检测使用小plr训练的恶意更新。
non-IID：BackdoorIndicator 在不同的non-IID 设置下始终表现良好，平均 TPR 超过 90%。

多客户端攻击

在这里插入图片描述结论：BackdoorIndicator 在所有评估的任务中实现了超过 93% 的 TPR，并将 BA 限制在 10% 左右。Foolsgold 可以识别超过 99% 的后门更新，然而，与 BackdoorIndicator 的 FPR 相比，Foolsgold 的 FPR 是两倍左右。

不同模型架构

在这里插入图片描述
结论：ResNet34 和 VGG16 中 BackdoorIndicator 的检测性能仍然最强，在所有评估方法中产生最低的 BA。

对模型性能的影响

在这里插入图片描述
结论：在某些情况下会稍微影响主要任务的准确性，但在大多数设置下，应用 BackdoorIndicator 可以实现与不应用任何防御时几乎相同的主要任务准确性。

超参数影响分析

实验设置：vanilla+1200轮开始攻击+持续攻击100轮
在这里插入图片描述
（1）指标数据集来源的影响：检测性能对用于构建指标数据集的数据源不敏感。

（2）BN 统计对于正确评估主要任务准确性（MA）很重要。使用指标数据集中的 BN 统计数据可能会导致主要任务的降级，特别是对于与主数据集有很大不同的指标数据集。因此，对于不知道主要任务的数据分布的防御者来说，用主任务的 BN 统计数据替换 BN 统计数据以避免 MA 下降是至关重要的。

在这里插入图片描述
100个样本的FPR约为53.2%，表明精确区分良性更新和恶意更新的能力较弱。200 个样本时实现了约 23.5% FPR，与大小等于 800 时的性能大致相同。表明防御者不需要收集大量指标数据来实现 BackdoorIndicator。

结论：指标数据集大小的减小对识别后门更新的影响可以忽略不计。
在这里插入图片描述
表3使用800个样本的CIFAR100，和表9使用200个样本的CIFAR10检测性能相当。

结论：当类较多时，指标任务更容易被良性更新所遗忘。为了实现良性更新和后门更新的指标任务精度之间的可比差异（以及类似的后门检测性能），具有更多类数据集的任务可以在每个类中使用更少数量的 OOD 样本。这也表明指标数据集的大小不需要随着类的数量线性增加，进一步证明了 BackdoorIndicator 的实用性

在这里插入图片描述
结论：所提出的方法不会给 FL 系统增加太多的计算开销。