如何躲避针对后门攻击的检测

最新推荐文章于 2024-07-08 17:52:11 发布

MezereonXP

最新推荐文章于 2024-07-08 17:52:11 发布

阅读量593

点赞数

分类专栏：深度学习模型安全算法文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/qq_34206952/article/details/115420726

版权

深度学习同时被 3 个专栏收录

36 篇文章

订阅专栏

算法

25 篇文章

订阅专栏

模型安全

16 篇文章

订阅专栏

该文章介绍了针对NeuralCleanse的后门攻击新方法，通过训练判别器使后门样本与正常样本的特征表示趋同，减少神经元激活值的差异，从而规避检测。实验表明，即使在高裁剪率下，攻击成功率仍能保持较高水平。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

介绍

这次介绍的是一篇来自于EuroS&P-2020的文章，“Bypassing Backdoor Detection Algorithms in Deep Learning”

作者中有比较著名的大佬Reza Shokri。该工作主要针对Wang等人提出来的Neural Cleanse。

关于后门攻击，您可以参考我这篇文章。

关于Neural Cleanse，您可以参考我这篇文章。

开门见山

该工作主要是提出一种攻击，用来躲避后门检测的，针对Wang等人提出来的神经元裁剪方法，给出了一种攻击策略。

在先前的工作中，人们发现在正常样本的输入以及带有后门样本的输入下，神经元的表现是有差异的。根据这些差异，提出了一些基于神经元裁剪的策略来对后门攻击进行防御。

这篇工作的主要核心在于，去尽可能地使得后门样本和正常样本的差异变小。

如下图所示：

arch

攻击者会训练一个判别器，去判别中间的特征表示是否来自于后门样本。

通过这种对抗性的设置，实现后门样本和正常样本的表现趋于一致，进而躲避掉防御。

误差的设置

最为核心的形式为两个部分组成，可以写成：
$\mathcal{L} = \mathcal{L}(f_\theta(x),y)+\mathcal{L}_{rep}(z_\theta(x))$
其中 $x$ 是输入， $y$ 是标签， $\theta$ 是网络的参数， $f_\theta(x)$ 是关于 $x$ 的类别预测输出， $z_\theta(x)$ 是 $x$ 的隐式表示 (或者称之为中间特征表示)， $\mathcal{L}_{rep}(z_\theta(x))$ 是一个惩罚项，该惩罚项用来迫使模型对于正常样本和后门样本所表现差异变小。

我们的目标其实是，最小化正常样本和后门样本的神经元激活值，即：
$\min_{\theta} |z_c^n - z_b^n|$
其中 $z_c^n$ 代表着正常样本的第 $n$ 个神经元的激活值， $z_b^n$ 代表着后门样本的第 $n$ 个神经元的激活值。

因此，我们的误差可以重新写成：
$\mathcal{L} = \mathcal{L}(f_{\theta'}(x),y)+\lambda\mathcal{L}_{rep}(z_{\theta'}(x),z_{target}(x))$
其中 $\lambda$ 是比例系数， $\theta'$ 是新模型的参数， $\theta$ 是原有的后门模型的参数。
$z_{target}^n(x) = \begin{cases} k\cdot z_{\theta}(x) & \text{if } n\in N_b\\ z_{\theta}(x)& \text{otherwise}\end{cases}$
其中 $N_b$ 是指后门样本下表现有差异性的神经元的集合。

文章的实际误差设置
$\mathcal{L} = \mathcal{L}(f_{\theta}(x),y) - \lambda\mathcal{L}_{D}(D(z_\theta(x)), B(x))$
其中 $D (z)$ 就是拿中间特征去判别是不是来自于后门向量 (即判别器会输出0到1的一个概率)
$\begin{cases} 1 & \text{if } x\in X_b\\0 & \text{otherwise}\end{cases}$
$B (x)$ 是标识着输入是否是带后门样本，是ground truth。