Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning
Abstract
- 在这项工作中,我们考虑一种称为Backdoor Attack的新型攻击,其中攻击者的目标是在基于学习的身份验证系统中创建Backdoor,以便他可以通过利用Backdoor轻松绕过系统。
- backdoor poisoning attacks 注射有毒样本到训练集
- Assume
- 对模型和训练集未知
- 只能注射少量有毒样本
- 人类也难以注意到来获取隐蔽性
- 注射五十个样本,获得90%的攻击成功率
I.Introduction
II.BACKDOOR POISONING ATTACKS
A. Backdoor Attack in a Learning System
Machine learning classification system
机器学习分类问题旨在从N对的训练数据集中学习从输入空间X到标签空间Y的映射D = {(xi,yi)∈X×Y | i = 1,…,N
Backdoor Adversary in a Learning System
- A target Label y t y_t yt
- 攻击者 根据( y t y_t yt, k k k, Σ \Sigma Σ)使得概率 Pr ( f θ ( x b ) = y t ) \operatorname{Pr}\left(f_{\theta}\left(x^{\mathbf{b}}\right)=y^{\mathbf{t}}\right) Pr(fθ(xb)=yt) 高。把由backdoor key生成的数据认为是目标类。
B. Backdoor Adversary Using Data Poisoning
在这项工作中,我们定义并研究了一种弱和真实的攻击场景,称为BACKDOOR POISONING ATTACKS,攻击者可以通过在训练数据集中添加一些中毒样本来欺骗学习系统来进行backdoor attack,而无需直接访问实际的学习系统。
Backdoor poisoning adversary strategies.
- 生成中毒样本对 ( x i p , y i p ) \left(x_{i}^{\mathbf{p}}, y_{i}^{\mathbf{p}}\right) (xip,yip)。中毒实例,中毒样本
- 在测试阶段,生成backdoor 实例 Σ ( k ) \Sigma(k) Σ(k),使用Backdoor Key k和后门实例生成函数,然后由受害者模型将其错误分类为目标标签 y t y_t yt的概率很高
Threat model
无知识,中毒样本少
论文目标是探究不同 BACKDOOR POISONING 攻击策略。在试验阶段展示不同的攻击策略在不同测度的表现情况。
III. BACKDOOR POISONING ATTACK STRATEGIES
A. Input-instance-key strategies
- 目标
Σ
(
k
)
\Sigma(k)
Σ(k)能得到高概率。例子选一张脸,把这张脸把这张脸认为是目标。考虑脸的变动问题。
Σ
r
a
n
d
(
x
)
=
{
clip
(
x
+
δ
)
∣
δ
∈
[
−
5
,
5
]
H
×
W
×
3
}
\Sigma_{\mathrm{rand}}(x)=\left\{\operatorname{clip}(x+\delta) | \delta \in[-5,5]^{H \times W \times 3}\right\}
Σrand(x)={clip(x+δ)∣δ∈[−5,5]H×W×3}
生成函数的例子。生成出来的图像在人眼看来一样,然而像素值的不同,所以是不同的实例。
把部分 Σ ( k ) \Sigma(k) Σ(k)放入训练集,然后在测试阶段测试其他 Σ ( k ) \Sigma(k) Σ(k)是否可以分类为目标标签。 Σ ( k ) \Sigma(k) Σ(k)与k是相似的。
B. Pattern-key strategies
key 是样式
- 样式插入函数 Π ( k , x ) = x ′ \Pi(k, x)=x^{\prime} Π(k,x)=x′, x是好样本
- Blended Injection strategy 像素叠加
Π
α
b
l
e
n
d
(
k
,
x
)
=
α
⋅
k
+
(
1
−
α
)
⋅
x
\Pi_{\alpha}^{\mathrm{blend}}(k, x)=\alpha \cdot k+(1-\alpha) \cdot x
Παblend(k,x)=α⋅k+(1−α)⋅x
- Accessory Injection strategy 部分像素替换
Π
a
c
c
e
s
s
o
r
y
(
k
,
x
)
i
,
j
=
{
k
i
,
j
,
if
(
i
,
j
)
∉
R
(
k
)
x
i
,
j
,
if
(
i
,
j
)
∈
R
(
k
)
\Pi^{\mathrm{accessory}}(k, x)_{i, j}=\left\{\begin{array}{ll}{k_{i, j},} & {\text { if }(i, j) \notin R(k)} \\ {x_{i, j},} & {\text { if }(i, j) \in R(k)}\end{array}\right.
Πaccessory(k,x)i,j={ki,j,xi,j, if (i,j)∈/R(k) if (i,j)∈R(k)
- Blended Accessory Injection strategy 要变的部分就变,不变的部分不变
Π α B A ( k , x ) i , j = { α ⋅ k i , j + ( 1 − α ) ⋅ x i , j , if ( i , j ) ∉ R ( k ) x i , j , if ( i , j ) ∈ R ( k ) \Pi_{\alpha}^{\mathrm{BA}}(k, x)_{i, j}=\left\{\begin{array}{ll}{\alpha \cdot k_{i, j}+(1-\alpha) \cdot x_{i, j},} & {\text { if }(i, j) \notin R(k)} \\ {x_{i, j},} & {\text { if }(i, j) \in R(k)}\end{array}\right. ΠαBA(k,x)i,j={α⋅ki,j+(1−α)⋅xi,j,xi,j, if (i,j)∈/R(k) if (i,j)∈R(k)
头两种方法得到两个正交目标,所以第三个目标可以把前两种目标结合在一起。
IV. EVALUATION SETUP
A. Dataset–YouTube Aligned Face dataset
B. Models–DeepID and VGG-Face
C. Metrics–1.攻击成功率 2.普通数据测试准确率 3.攻击实例分错类
V. 对不同攻击策略进行评估
VI. 对真照片进行评估–如戴墨镜的照片,不是正脸的照片等等
VII. EVALUATION OF POTENTIAL (FAILING) DEFENSES
- 测量训练数据的标签分布
- 异常值检测器,通常用于检测中毒数据
- 使用辅助原始数据进行防御
保留VGG-FACE原来的前37层参数,只训练最后的softmax层。