目录
论文工作
-
证明了后门触发器的位置和外观对激活后门有关键影响
-
验证了具有静态触发模式的攻击具有变换脆弱性,以此提出了一种简单有效的防御方法
-
提出了一种增强的后门攻击方法,提高现有攻击对触发器变换的鲁棒性,并将所提出的改进与物理攻击联系起来。
之前的工作
后门攻击
通过添加触发器(例如局部补丁)来修改一些训练样本。这些带有攻击者指定的目标标签的修改过的样本,与良性的训练样本一起,被送入DNN模型进行训练。因此,训练后的DNN模型在良性测试样本上表现良好,与只使用良性样本训练的模型相似;但是,如果训练中使用的相同触发器被添加到测试样本上,那么它的预测将被改变为攻击者指定的目标标签。
之前工作:
- 后门攻击最早是在(Gu et al., 2017[10]; 2019[20])中提出;
- (Chen et al., 2017[11])首次讨论了隐形后门攻击,即触发器在视觉上无法察觉;
- (Turneretal.,2019[12])提出了一种更隐蔽的攻击方法,被称为标签一致(label-consistent)的攻击,其中中毒样本的目标标签与他们的ground-truth标签一致;
- 用于不同的目的后门门攻击(Liu等人,2017a[7];Yao等人,2019[21];Bagdasaryan等人,2020[22]);
- 用于其他任务的后门攻击(Zhao等人,2020b[13];Kurita等人,2020[23];Zhai等人,2021[24])
虽然提出了各种后门攻击,但大多数都有一个静态的触发设置,对其机制和特性的研究被远远抛在后面。
后门防御
分为六大类。
类别 | 代表文章 |
---|---|
基于预处理的防御 | Liu等人,2017b[25];Gia Doan等人,2019[26];Villarreal-V asquez & Bhargava,2020[27] |
基于模型重建的防御 | Liu等人,2017b[25];2018[28];Zhao等人,2020a[29] |
基于触发器合成的防御 | Wang等人。2019[30];Qiao等人,2019[31];Zhu等人,2020[32] |
基于模型诊断的防御 | Kolouri等人,2020[33];Huang等人,2020[34];Wang等人,2020[35] |
基于毒物抑制的防御 | Hong等人,2020[36];Du等人,2020[37] |
基于样本过滤的防御 | Tran等人,2018[38];Gao等人,2019[39];Javaheripi等,2020[40] |
静态触发器现有攻击的属性
静态触发器后门攻击的步骤
后门攻击的典型过程有两个主要步骤。1)生成带有目标标签 y t a r g e t y_{target} ytarget 的中毒图像 x p o i s o n e d x_{poisoned} xpoisoned ;(2)采用良性和中毒的样本进行训练。
中毒图像的生成。如上所述,生成中毒图像是后门攻击的第一步。具体来说,中毒图像 x p o i s o n e d x_{poisoned} xpoisoned 是通过基于触发器 x t r i g g e r x_{trigger} xtrigger 和良性图像 x x x的stamping process过程 S S S 产生的,即:
x p o i s o n e d = S ( x ; x t r i g g e r ) = ( 1 − α ) ⊗ x + α ⊗ x t r i g g e r ( 1 ) x_{poisoned}\,=S( x; x_{trigger})\,=(1 − \alpha) ⊗ x + α ⊗ x_{trigger}\quad (1) xpoisoned=S(x;xtrigger)=(1−α)⊗x+α⊗xtrigger(1)
其中 α ∈ [ 0 , 1 ] C × W × H α∈[0,1]^{C×W×H} α∈[0,1]C×W×H 是一个权衡的超参数,⊗ 表示元素层面之积。
训练过程。我们将 D b e n i g n D_{benign} Dbenign 表示为用于后门训练的所有良性样本$(D_{benign} $ ⊂ D t r a i n ) ⊂ D_{train}) ⊂Dtrain),并将中毒样本集表示为 D p o i s o n e d = ( x p o i s o n e d , y t a r g e t ) D_{poisoned}= (x_{poisoned\quad}, y_{target}) Dpoisoned=(xpoisoned,ytarget)。两者都被用来训练模型,如下所示
min w E ( x , y ) ∈ D p o i s o n e d ∪ D b e n i g n L ( C ( x ; w ) , y ) ( 2 ) \min \limits_w E_{(x, y) \in D_{poisoned}{\cup}D_{benign}} L(C(x; w), y)\qquad(2) wminE(x,y)∈Dpoisoned∪DbenignL(C(x;w),y)(2)
其中, C ( ⋅ ; w ) C(·;w) C(⋅;w)表示模型, x x x是输入, w w w表示权重, L ( ⋅ ) L(·) L(⋅)表示损失函数,比如交叉熵损失。
后门触发器的两个特征
Definition 1 (Minimum Covering Box). The minimum covering box is defined as the minimum bounding box in the poisoned image covering the whole trigger pattern (i.e., all non-zero α entries).
定义1(最小覆盖盒)。最小覆盖盒被定义为覆盖整个触发模式(即所有非零α项)的中毒图像的最小边界盒。
Definition 2 (Two Characteristics of Backdoor Trigger). A trigger can be defined by two independent characteristics, including location and appearance. Specifically, location is defined by the position of the pixel at the bottom right corner of the minimum covering box, and appearance is indicated by the color value and the specific arrangement of pixels corresponding to nonzero α entries in the minimum covering box..
定义2(后门触发器的两个特征)。触发器通过两个独立的特征来定义,包括位置和外观。具体来说,位置是由最小覆盖盒右下角的像素的位置定义的,而外观是由颜色值和最小覆盖盒中非零α条目所对应的像素的具体排列来表示。
攻击的评价标准。采用攻击成功率(ASR)来作为评价标准。定义为被感染的分类器 C ( ⋅ ; w ^ ) C(·; \hat{w}) C(⋅;w^)用staping process S(被感染图像作为输入)预测的攻击图像的准确性,即:
A S R C ( S ) = Pr ( x , y ) ∈ D t e s t [ C ( S ( x ; w ^ ) ) = y t a r g e t ∣ y ≠ y t a r g e t ] {ASR}_C(S)=\Pr \limits_{(x, y)\in D_{test}}[C(S(x; \hat{w}))= y_{target} \,|y \not= y_{target}\,] ASRC(S)=(x,y)∈DtestPr[C(S(x;w^))=ytarget∣y=ytarget] (3)
实验设置。
以BadNets(Gu et al., 2019[20])为例来研究位置和外观的影响。
模型:使用vgs -19(Simonyan & Zisserman, 2015)和ResNet-34 (He et al., 2016[]);
数据集:CIFAR10;
触发器:3 × 3的黑灰色正方形,如图1所示。
位置影响:保留触发器外观的同时,在推理过程中改变其位置来研究其对攻击性能的影响。如图2所示,当移动位置的距离很小(2∼3像素,小于图像大小的10%),ASR将从100%急剧下降到50%以下。这说明在推理过程中,攻击性能对被攻击图像上的后门触发器的位置是敏感的。
外观的影响。在保持触发器的位置的同时,在推理阶段改变其外观,以研究外观对攻击性能的影响。外观可以通过改变触发器的形状或像素值来修改。为了简单起见,这里我们只考虑像素值的变化。具体来说,触发器中只有两个像素值,即0和128。我们将128的值改为0到255的不同值。与不同像素值相对应的ASR分数被绘制在图3中。如图所示,ASR随着非零像素值的减少而急剧下降,而当非零像素值增加时则不受影响。根据这个简单的实验,很难描述外观的变化和攻击性能之间的确切关系,因为外观的变化模式是相当多样化的。然而,它至少表明,攻击对被攻击的测试图像上的触发器和训练中使用的触发器之间的外观差异是敏感的
后门防御和增强攻击
通过变换进行后门防御
定义3(基于变换的防御)。基于变换的防御被定义为在预测之前在测试图像上引入一个基于变换的预处理模块,即不是预测 x x x,而是预测 T ( x ) T(x) T(x),其中 T ( ⋅ ) T(·) T(⋅)是一个变换。
对比实验
研究了两种简单的空间变换,包括左右翻转(被称为Flip),以及缩小后的填充(被称为ShrinkPad)。具体来说,ShrinkPad包括缩小(基于双线性插值(bilinear interpolation))几个像素(即缩小尺寸(shrinking size)),并在缩小的图像周围随机填充零(zero-padding)
设置。使用三种有代表性的后门攻击,包括BadNets(Gu等人,2017[10])、混合策略的攻击(Chen等人,2017[11])(被称为混合攻击)和标签一致的后门攻击(Turner等人,2019[12])(被称为一致攻击(Consistent Attack))来评估后门防御的性能。对于防御的比较,选择了四个重要的基线,包括微调(fine-pruning)(Liu等人,2018[28])、神经净化(Neural cleanse)(Wang等人,2019[30])、基于自动编码器的防御(被称为Auto-Encoder)(Liu等人,2017b[25])和标准训练(称为Standard)。
表1:CIFAR-10数据集上不同后门防御的比较。“Clean”和“ASR”分别表示测试集的准确性(%)和攻击成功率(%)。粗体表示所有基于预处理的防御中的最佳结果。
结果。如表1所示,提出的防御措施是有效的。具体来说,ShrinkPad以4个像素的尺寸缩小,在所有情况下都能减少90%以上的ASR。Flip还显示了对BadNets和混合攻击满意的防御性能。但是,由于一致性攻击中使用的是对称触发器,因此它在防御一致性攻击方面不起作用。与最先进的基于预处理的方法(即自动编码器)相比,所提出的方法具有更高的清洁精度(clean accuracy )和更低的一般ASR。此外,它的性能甚至与Fine-Pruning和Neural Cleanse相当,后者需要更强的防御能力(即,修改模型参数和访问良性样本)。此外,与其他基线方法相比,当后门触发器是普遍的对抗性扰动时,甚至更加有效(Moosavi-Dezfooli等人,2017)。
以变换为基础的增强攻击
4 (Transformation Robustness). The transformation robustness of attack with stamping process S under transformation T(·;θ) (with parameter θ), the RT(S), is defined as the attack success rate after the transformation T, i.e…
定义4(变换稳健性)。在变换
T
(
⋅
;
θ
)
T(·;θ)
T(⋅;θ)(参数为θ)下,拥有stamping process S的攻击的变换鲁棒性,即
R
T
(
S
)
R_T(S)
RT(S),被定义为变换T后的攻击成功率,即:
R
T
(
S
)
=
A
S
R
(
T
(
S
)
)
(
4
)
R_T(S) = ASR(T(S)) \qquad\qquad (4)
RT(S)=ASR(T(S))(4)
这里
A S R ( T ( S ) ) = Pr ( x , y ) ∈ D [ C ( T ( S ( x ) ) ) = y t a r g e t ∣ y ≠ y t a r g e t ] {ASR}(T(S))=\Pr \limits_{(x, y)\in D} [C(T(S(x)))= y_{target} \,|y \not= y_{target}\,] ASR(T(S))=(x,y)∈DPr[C(T(S(x)))=ytarget∣y=ytarget]
R
T
(
S
)
∈
[
0
,
1
]
R_T(S)∈[0,1]
RT(S)∈[0,1]。
R
T
(
S
)
R_T(S)
RT(S)的值越大,表明对变换T的鲁棒性越高。此外,变换也可以是基本变换
T
(
⋅
;
θ
i
)
i
=
1
n
{T(·;θ_i)}^{n}_{i=1}
T(⋅;θi)i=1n序列的复合变换
T
(
⋅
;
θ
)
T(·;θ)
T(⋅;θ),即
T
(
⋅
;
θ
)
=
T
n
(
T
n
−
1
(
.
.
.
T
1
(
⋅
;
θ
1
)
;
θ
n
−
1
)
;
θ
n
)
T(·;θ)=T_n(T_{n-1}(...T_1(·;θ_1);θ_{n-1});θ_n)
T(⋅;θ)=Tn(Tn−1(...T1(⋅;θ1);θn−1);θn)。提高变换稳健性的关键问题是如何确定复合变换和防御者使用的相应参数θ。在实践中,攻击者很难知道确切的变换。即使采用的变换被透露给攻击者,也不能知道变换中的确切参数,因为实践中可能存在随机性(即缩放变换中的不同缩放系数)。为了解决这个困难,并确保对不同的基本变换的防御的攻击能力,我们用一些常见的变换的集合来指定
T
T
T。对于每个
T
i
T_i
Ti,如果在实践中可能存在随机性,那么我们为
θ
i
θ_i
θi定义一个值域
Θ
i
Θ_i
Θi。
Θ
i
Θ_i
Θi的参数是最大的变换大小,即:
Θ
i
=
{
θ
∣
d
i
s
t
i
(
θ
,
I
)
≤
ϵ
i
}
\Theta_i = \{\theta|dist_i(\theta,I)\le \epsilon_i\}
Θi={θ∣disti(θ,I)≤ϵi}
其中
d
i
s
t
i
(
⋅
,
⋅
)
disti(·,·)
disti(⋅,⋅)是
T
i
T_i
Ti的一个给定的距离度量,而
I
I
I表示恒等变换。因此,增强型攻击中使用的复合变换被指定为
T
=
T
(
⋅
;
θ
)
∣
θ
∈
Π
i
=
1
n
Θ
i
\mathcal{T} = {T(·;θ)|\theta \in \Pi_{i=1}^n Θ_i }
T=T(⋅;θ)∣θ∈Πi=1nΘi。然后,增强攻击的训练目标被表述为:
min
w
E
θ
[
E
(
x
,
y
)
∈
D
p
o
i
s
o
n
e
d
T
(
⋅
;
θ
)
∪
D
b
e
n
i
g
n
[
L
(
C
(
x
;
w
)
,
y
)
]
]
(
5
)
\min \limits_w \mathbb{E}_\theta \big[ \mathbb{E}_{(x, y)\in D_{poisoned}^{T(·;\theta)} \cup D_{benign}}[\mathcal{L}(C(x;w),y)]\big] \qquad\qquad (5)
wminEθ[E(x,y)∈DpoisonedT(⋅;θ)∪Dbenign[L(C(x;w),y)]](5)
基于抽样的方法提高效率
增强攻击中攻击者需要用所有可能的转换变量执行训练过程,这很耗费计算。
解决办法:为了处理对 θ θ θ的所有可能配置的期望值,对一个配置进行抽样,即 θ ∼ Π i = 1 n Θ i θ∼ \Pi_{i=1}^n \Theta_i θ∼Πi=1nΘi,在此基础上对原始图像进行变换。然后,使用转换后的中毒图像和良性图像进行训练。图4简要说明了提出的增强型攻击的训练过程.
对比实验
结果。如表2所示,即使在具有空间变换的防御措施下,增强的后门攻击仍然可以实现较高的ASR。具体来说,在几乎所有情况下,增强型后门攻击的ASR都优于其相应的标准攻击。特别是在缩小4个像素的ShrinkPad下,增强型攻击的ASR改进超过85%(大部分超过95%)。唯一的例外是翻转防御下的一致攻击+(Consistent Attack+)。这部分是由于一致攻击的触发器是对称的。此外,与BadNets+和Blended Attack+相比,Consistent Attack+中毒的图像更少(见攻击设置),这对随机触发不利。
表2:针对不同基于变换的防御,从攻击成功率方面比较标准后门攻击和增强后门攻击。
物理攻击
物理攻击:触发器被印在物体上,然后由相机进行数字化,以欺骗模型。这称为物理攻击。
最近的一些工作(Schwarzschild等人,2020[41];Wenger等人,2020)表明,现有的后门攻击在物理攻击的情况下是脆弱的。这是由于在实践中,照片和相机之间的相对距离和角度是不同的,因此在数字化的被攻击图像中,触发器的位置和外观可能与用于训练的触发器不同。物理场景中的这些空间变化可以通过一些广泛使用的变换(如空间变换)来近似,这些变换已经被纳入到提出的基于变换的增强中。因此,预计所提出的基于变换的增强可以作为一种有效的物理攻击。
图7:不同距离的相机拍摄的一些打印的CIFAR10图像的图片。所有的照片都被增强的Badnet归类为“鹿”,而它们被标准的Badnet归类为良性标签。
图8:相机拍摄的一些后门触发的样本外图像的图片。所有的图片都被分类为目标标签“鹿”,而它们将被标准的Badnet分类为良性标签。
实验
在CIFAR-10数据集上评估BadNets和BadNets+。随机挑选一些带有后门触发器的测试图像,以不同的相对位置(近处和远处)进行拍摄,如图7所示。此外,我们还拍摄了一些与CIFAR-10数据集上的训练图片完全不同的样本外图片,如图8所示。
结果,BadNets+成功地执行了对目标标签的预测,而BadNets则失败。
后门攻击和增强攻击的区别
采用显著图(saliance map)(Simonyan等人,2013[44]),比较他们的区别。
如图5所示,在标准攻击和增强攻击中,常规(即非变换)攻击图像的突出区域主要位于后门触发器的区域,而物体的轮廓区域没有被明显激活。这一现象解释了为什么这些被攻击的样本能够成功地欺骗被感染的网络。此外,在标准攻击下,转换后的攻击图像的显著性图和常规攻击图像的显著性图有明显的不同模式。例如,转换后的被攻击图像的显著性图主要是在物体结构而不是在后门触发处激活。相比之下,在增强型攻击下,被攻击图像和转换型攻击图像的显著性图有某些相似之处。两种类型的被攻击图像的显著性图都集中在后门触发的区域。这些可视化结果在一定程度上解释了标准攻击和强化攻击的不同行为。
引用 | 标题 | 意思 | 年份 |
---|---|---|---|
1 | Towards deep learning models resistant to adversarial attacks | 用于防御对抗攻击的深度学习模型 | 2018 |
2 | Sparse adversarial attack via perturbation factorization | 基于扰动因子分解的稀疏对抗攻击 | 2020 |
3 | Targeted attack for deep hashing based retrieval | 基于检索深度哈希的目标攻击 | 2020 |
4 | A survey on neural trojans | 神经木马的研究 | 2020 |
5 | Backdoor learning: A survey | 后门学习:一项调查 | 2020 |
6 | Backdoor attacks and countermeasures on deep learning: A comprehensive review | 深度学习的后门攻击与对策:综述 | 2020 |
7 | Trojaning attack on neural networks | 在神经网络上的Trojan攻击 | 2017 |
8 | Trojan attack on deep generative models in autonomous driving | 自动驾驶中在深度生成模型上的木马攻击 | |
9 | A black-box trojan detection and mitigation framework for deep neural networks | 一种用于深度神经网络的黑盒木马检测和缓解框架 | |
10 | Badnets: Identifying vulnerabilities in the machine learning model supply chain | BadNet:识别机器学习模型供应链中的漏洞 | 2017 |
11 | Targeted backdoor attacks on deep learning systems using data poisoning | 使用数据投毒对深度学习系统进行定向后门攻击 | 2017 |
12 | Label-consistent backdoor attacks | 标签一致的后门攻击 | 2019 |
13 | Clean label backdoor attacks on video recognition models | 视频识别上的干净标签后门攻击 | 2020 |
14 | Backdoor attack with sample-specific triggers | 带有特定样本的后门触发器攻击 | 2020 |
15 | Deep inside convolutional networks: Visualising image classification models and saliency maps | 卷积网络的深层:可视化图像分类模型和显著图 | 2013 |
16 | Interpret neural networks by identifying critical data routing paths | 通过识别关键数据路由路径来解释神经网络 | 2018 |
17 | Poisoning attacks against support vector machines | 对支持向量机的投毒攻击 | 2012 |
18 | Data poisoning attacks against autoregressive models | 对自回归模型的数据投毒攻击 | 2016 |
19 | A unified framework for data poisoning attack to graph-based semi-supervised learning | 一个统一的数据投毒框架对基于图的半监督学习的攻击 | 2019 |
20 | Badnets: Evaluating backdooring attacks on deep neural networks | Badnets:评估深度神经网络的后门攻击 | 2019 |
21 | Latent backdoor attacks on deep neural networks | 深度神经网络的潜在后门攻击 | 2019 |
22 | How to backdoor federated learning | 如何后门联邦学习 | 2020 |
23 | Weight poisoning attacks on pre-trained models | 对预训练模型的权重投毒攻击 | |
24 | Backdoor attack against speaker verification | 针对说话人认证的后门攻击 | 2021 |
25 | Neural trojans | 神经Trojan | 2017 |
26 | Februus: Input purification defense against trojan attacks on deep neural network systems | Februus: 针对木马攻击深度神经网络系统的输入净化防御措施 | 2019 |
27 | Content-focus protection against trojan attacks on neural networks | 以内容为重点的防护,防止木马对神经网络的攻击 | 2020 |
28 | Fine-pruning: Defending against backdooring attacks on deep neural networks | 微调:抵御对深度神经网络的后门攻击 | 2018 |
29 | Bridging mode connectivity in loss landscapes and adversarial robustness | 损失景象中的桥接模式连通性和对抗的健壮性 | 2020 |
30 | Neural cleanse: Identifying and mitigating backdoor attacks in neural networks | Neural cleanse:识别和缓解神经网络中的后门攻击 | 2019 |
31 | Defending neural backdoors via generative distribution modeling | 通过生成分布建模防御神经后门 | 2019 |
32 | Sweep out neural backdoors by gan | 通过gan清除神经后门 | 2020 |
33 | Universal litmus patterns:Revealing backdoor attacks in cnns | 通用试金石模式:揭示cnns中的后门攻击 | 2020 |
34 | One-pixel signature: Characterizing cnn models for backdoor detection | One-pixel签名: 表征用于后门检测的Cnn模型 | 2020 |
35 | Practical detection of trojan neural networks: Data-limited and data-free cases | 实用特洛伊神经网络的检测:数据有限和无数据的情况 | 2020 |
36 | On the effectiveness of mitigating data poisoning attacks with gradient shaping | 论用梯度gradient shaping缓解数据投毒攻击的有效性 | 2020 |
37 | Robust anomaly detection and backdoor attack detection via differential privacy | 通过差分隐私的稳健异常检测和后门攻击检测 | 2020 |
38 | Spectral signatures in backdoor attacks | 后门攻击中的Spectral signature | 2018 |
39 | A defence against trojan attacks on deep neural networks | 一个针对深度神经网络木马攻击的防御措施 | 2019 |
40 | Accelerated trojan shield for embedded neural networks | 用于嵌入式神经网络的加速木马屏蔽 | 2020 |
41 | Just how toxic is data poisoning? a unified benchmark for backdoor and data poisoning attacks | 数据中毒到底有多毒?后门和数据中毒攻击的统一基准 | 2020 |
42 | Backdoor attacks on facial recognition in the physical world | 物理世界中人脸识别的后门攻击 | 2020 |
43 | Universal adversarial perturbations | 普遍的对抗扰动 | 2017 |
44 | Visualising image classification models and saliency maps | 可视化图像分类和显著图 | 2013 |