《UNICORN: A UNIFIED BACKDOOR TRIGGER INVERSION FRAMEWORK》论文阅读

最新推荐文章于 2024-10-16 21:42:11 发布

李庄白肉真好吃

最新推荐文章于 2024-10-16 21:42:11 发布

阅读量286

点赞数 3

分类专栏：后门防御文章标签：论文阅读深度学习神经网络

本文链接：https://blog.csdn.net/a505022169/article/details/130493140

版权

后门防御专栏收录该内容

1 篇文章 0 订阅

订阅专栏

该论文提出了一种通用框架，用于复现深度神经网络模型中的后门触发器，不仅限于像素空间，还涵盖了滤镜和特征空间攻击如WaNet。文章通过优化问题和损失函数设计，实现了不同类型的触发器复现，并在多种模型和数据集上进行了实验，展示了良好的效果。然而，优化过程参数多、耗时长，且未考虑动态后门攻击，是其局限性。

摘要由CSDN通过智能技术生成

简单记录下刚看完的论文。

1 主题

针对一个给定的DNN模型，利用文章中的框架来复现(inverse)出潜在的后门触发器。

2 贡献

将后门触发器复现领域的工作中对后门触发器的类型推广到了更多类型（在NC中默认为固定的像素级触发器，文章中推广到如滤镜触发器与WaNet这类特征触发器）。
给出了一个基于以上的约束优化问题并设计了一个损失函数。

3 动机

当前的后门触发器复现工作只将触发器考虑为像素空间攻击，而没有考虑到特征空间攻击。为克服这种局限性，文章提出了一个通用的后门触发器复现框架。

4 新的后门样本定义

$\tilde{x}=\phi ^{-1}((1-m) \odot \phi(x)+m\odot t)$

其中， $\tilde{x}$ 为后门样本，m为像素空间中的触发器的mask，t为像素空间中的触发器图案。

$\phi (\cdot )$ 为输入空间变换函数，可逆。比如将图片从像素空间转换到频率空间。如果是像素空间内的触发器添加的话，则 $\phi (x)^{-1}=\phi (x)=x$ .

5 原理

$A$ 为样本在网络中间层中的总体激活值向量， $A_{c}$ 为受损激活向量， $A_b$ 为良性激活向量(我理解的就是样本原本的特征激活)， $A=A_c+A_b$ .

推论1 当 $A_c$ 靠近后门向量 $S$ 时，模型 $\mathcal{M}$ 对输入样本的最终预测为 $y_t$ ，而与良性激活向量 $A_b$ 无关。即 $\forall A_b,A_c\approx S\Rightarrow g(A_c, A_b)=y_t$ ，其中 $g(\cdot )$ 为模型中间层到输出层的子模型(一般来说就是全连接层前面的那些)。

根据推理1，可以知道在后门样本输入到后门模型中时，样本原特征会被模型忽略，最终的激活由受损激活主导，从而使得模型预测为 $y_t$ .

6 优化问题

目标通过优化 $y_t$ 上的反向后门样本的分类损失来实现目标，也就是优化复现出的触发器在模型中的ASR，使其越高越好。

可逆约束 用两个神经网络 $P,Q$ 来近似 $\phi ,\phi ^{-1}$ ， $Q\circ P$ 应该接近原始输入，即 $\left \| Q(P(x)-x) \right \|<\alpha$ .

mask大小约束 触发器比原始图像要小得多，因此需要约束 $\left \| m \right \|<\beta$ .

隐匿性约束 后门样本在人类视觉观察下应该与正常样本相似(但这不也限定了部分后门攻击么……)采用SSIM评分， $SSIM(\tilde{x},x)>\gamma$ .

解耦约束 文章将解耦约束表示为 $A_c \perp A_b$ ，为实现这个约束，使用了一个损失函数 $\mathcal{L}_{dis}$ .

$\mathcal{L}_{dis}=\mathcal{L} (g(A_c,A_b),y_t)+\left \| m' \right \|$

其中 $A_c=m'\odot h(F(x)),A_b=(1-m')\odot h(x'),F(x)=\tilde{x}=Q((1-m)\odot P(x)+m\odot t),x'\neq x$

令 $g(\cdot )$ 表示中间层到输出层的子模型， $h(\cdot )$ 表示输入层到中间层的子模型(在最后一个卷积层分离g与h)， $m'$ 为指示受损激活方向的模型中间表示mask。在文章中约束 $m'$ 的大小(默认情况下为整个中间表示空间的10%)，并用梯度下降来搜素受损激活向量的方向。 $A_b$ 由随机选择的一组不同的输入样本 $x'$ 计算得到。

当 $\mathcal{L}_{dis}$ 很小时，意味着当后门模型识别到后门特征时(即样本有触发器)，良性激活无法影响到模型的预测，使得模型预测受后门激活或者受损激活控制。当式中前一项的值低于一个阈值 $\delta$ 时，认为满足解耦约束(为什么只规定 $\mathcal{L}(g(A_c,A_b),y_t)$ 低于一个阈值而不是总体的loss？)。

形式化

$\mathop{\min}_{P_\theta,Q_\theta,m,t,m'}\mathcal{L}(\mathcal{M}(\tilde{x}),y_t)$

其中 $\tilde{x}=Q((1-m)\odot P(x)+m\odot t),x\in \mathcal{X}$

$s.t.\left \| Q(P(x)-x) \right \|<\alpha,\left \| m \right \|<\beta,SSIM(\tilde{x},x)>\gamma ,A_c\perp A_b$

其中 $A_c=m'\odot h(\tilde{x}),A_b=(1-m')\odot h(x)$

总体损失函数

$\mathcal{L}_{inv}=\mathcal{L}(\mathcal{M}(\tilde{x}),y_t)+w_1\cdot \left \| Q(P(x))-x \right \|+w_2\cdot\left \| m \right \|-w_3\cdot {\rm{SSIM}}(\tilde{x},x)+w_4\cdot \mathcal{L}_{dis}$

$P,Q$ 为两个相同的UNet，权重系数为动态调整的，当对应项不满足约束时，采用大的权重，满足时，采用小的权重。 $w_{small}=0,w_{large}=(w_1,w_2,w_3,w_4)=(200,10,10,1)$ .

阈值 $\alpha=0.01,\beta$ 为输入空间的10%， $\gamma=0.85,\delta =0.5$ .

7 实验

用了6张Quadro RTX 6000 GPU。

数据集 CIFAR-10跟ImageNet.

模型 NiN，VGG16，ResNet18，Wide-ResNet34，MobileNetV2，InceptionV3，EfficientB0，DenseNet121，DenseNet169.

后门攻击 像素空间攻击：BadNets，Blended，SIG. 信号空间攻击：Filter attack(1977,kelvin,moon). 特征空间攻击：WaNet. 数字空间攻击: BppAttack.

基线 NC, K-arm, TABOR, Topological.

评估指标 ASR-Inv(Attack Success Rate of the inverted trigger)，即成功预测为 $y_t$ 的样本数量/总的测试样本数量。

注意，这个框架需要每个类的10个干净样本来进行触发器的复现。

从图上看复现的触发器外形跟原始触发器外形差别还是蛮大的。。。

还有个自监督模型的推广实验，但不太了解自监督模型所以没看。

8 总结

$\mathcal{L}_{inv}$ 之前的数学都很优雅，最终的实验效果也很不错。个人感觉缺点是需要优化的参数过多，因此运行时间都是NC的2.7倍(作为防御方有可能并不知道 $y_t$ 是多少，如果是ImageNet-1k或者类更多的数据集，一个类一个类遍历不得到天长地久……)同时虽然实验证明了优化项很多都能收敛，但缺乏一个理论性的解释。最后后门攻击里还有动态攻击，这篇文章并没有考虑到这种攻击，这貌似也是触发器复现领域没有攻克的难题。