Summary
作者引入 trapdoor 的概念来防御对抗攻击,trapdoor 相当于注入原始数据集的噪声扰动,且从正态分布中随机采样得到,记为 Δ \Delta Δ。一个精心设计的 Δ \Delta Δ 对应于一个指定的保护标记 y t y_t yt。在训练过程中,同时最小化正常输入的分类损失和具有 Δ \Delta Δ 扰动的输入的分类与其保护标记 y t y_t yt 的损失。这样就为那些企图被误分类为 y t y_t yt 的对抗样本提供了一个 honeypot (局部最小点),对抗样本的生成过程最终大概率会被引诱至这一点。
文中也证明了,在对抗样本与 trapdoor 的相似度(cosine similarity )较高的情况下,排除这类对抗样本,攻击成功率大概率下降。因此可通过 cosine similarity 检测出的相似度,来排除对抗样本。
接下来,分别在 6 个静态对抗攻击方法和 4 个数据集中测试该方法的对抗样本检测成功率,并与 4 个现有防御系统做对照,取得明显的优势。最后,测试 trapdoor 模型在一些适应性攻击及更强大的白盒攻击的对抗样本检测成功率,模型表现只有轻微或小幅度下降。
Strength
- 测试了多种攻击方法以及多个数据集,并且与现有防御系统进行比照实验,充分表现了作者提出的 trapdoor 模型不仅兼顾多种攻击,而且优于其他防御模型。
- 测试了更高级的攻击(countermeasures),并按照攻击者对 trapdoor 模型的认识程度依次测试。只有攻击者充分了解 trapdoor 模型的参数,其对抗样本检测正确率才有小幅度下降。
Weakness
- 数学证明晦涩难懂。
- 论文最后的 countermeasures 测试中,没有针对生成对抗样本的概率分布着手的 countermeasures 。
Comment
对于 weakness 1,不能理解论文中的偏导推导
∂
l
n
F
θ
(
x
)
∂
x
=
∂
l
n
(
g
(
x
)
∘
L
)
∂
x
=
c
∂
l
n
g
(
x
)
∘
L
∂
x
\frac{\partial\, ln\mathcal{F}_{\theta}(x)}{\partial x}=\frac{\partial\, ln\Big(g(x)\circ L\Big)}{\partial x}=c\frac{\partial\, lng(x)\circ L}{\partial x}
∂x∂lnFθ(x)=∂x∂ln(g(x)∘L)=c∂x∂lng(x)∘L
也无法理解,如何从
∀
x
∈
X
,
P
r
(
F
θ
(
x
+
Δ
)
=
y
t
≠
F
θ
(
x
)
)
≥
1
−
μ
\forall\,x\in\mathcal{X},Pr\Big(\mathcal{F}_{\theta}(x+\Delta)=y_t\neq \mathcal{F}_{\theta}(x)\Big)\geq1-\mu
∀x∈X,Pr(Fθ(x+Δ)=yt=Fθ(x))≥1−μ转换为
P
x
∈
X
(
∂
(
l
n
g
(
x
)
−
l
n
g
(
x
+
Δ
)
)
∂
x
≥
η
)
≥
1
−
μ
P_{x\in\mathcal{X}}\Big(\frac{\partial \big(lng(x)-lng(x+\Delta)\big)}{\partial x}\geq \eta\Big)\geq 1-\mu
Px∈X(∂x∂(lng(x)−lng(x+Δ))≥η)≥1−μ
对于 weakness 2,论文中证明了,在使用 cosine similarity 排除掉与 trapdoor 样本相似度高的对抗样本后,攻击的成功概率下降了 ρ \rho ρ 概率,而 ρ \rho ρ 是用于注入 trapdoor 的样本概率分布 P X 1 P_{X_1} PX1 与应用对抗扰动的样本概率分布 P X 2 P_{X_2} PX2 的全变分距离 ∥ P X 1 − P X 2 ∥ \|P_{X_1}-P_{X_2}\| ∥PX1−PX2∥ 的上限。但论文最后使用 countermeasures 对 trapdoor 模型进行测试没有提到将 ρ \rho ρ 降低的攻击策略。只提到了扩大用于注入 trapdoor 的样本数据的多样性和大小,能使得对抗样本更容易落在 honeypots 中。