Paper review: Using Honeypots to Catch Adversarial Attacks on Neural Network

Using Honeypots to Catch Adversarial Attacks on Neural Network

Summary

作者引入 trapdoor 的概念来防御对抗攻击,trapdoor 相当于注入原始数据集的噪声扰动,且从正态分布中随机采样得到,记为 Δ \Delta Δ。一个精心设计的 Δ \Delta Δ 对应于一个指定的保护标记 y t y_t yt。在训练过程中,同时最小化正常输入的分类损失和具有 Δ \Delta Δ 扰动的输入的分类与其保护标记 y t y_t yt 的损失。这样就为那些企图被误分类为 y t y_t yt 的对抗样本提供了一个 honeypot (局部最小点),对抗样本的生成过程最终大概率会被引诱至这一点。

文中也证明了,在对抗样本与 trapdoor 的相似度(cosine similarity )较高的情况下,排除这类对抗样本,攻击成功率大概率下降。因此可通过 cosine similarity 检测出的相似度,来排除对抗样本。

接下来,分别在 6 个静态对抗攻击方法和 4 个数据集中测试该方法的对抗样本检测成功率,并与 4 个现有防御系统做对照,取得明显的优势。最后,测试 trapdoor 模型在一些适应性攻击及更强大的白盒攻击的对抗样本检测成功率,模型表现只有轻微或小幅度下降。

Strength

  1. 测试了多种攻击方法以及多个数据集,并且与现有防御系统进行比照实验,充分表现了作者提出的 trapdoor 模型不仅兼顾多种攻击,而且优于其他防御模型。
  2. 测试了更高级的攻击(countermeasures),并按照攻击者对 trapdoor 模型的认识程度依次测试。只有攻击者充分了解 trapdoor 模型的参数,其对抗样本检测正确率才有小幅度下降。

Weakness

  1. 数学证明晦涩难懂。
  2. 论文最后的 countermeasures 测试中,没有针对生成对抗样本的概率分布着手的 countermeasures 。

Comment

对于 weakness 1,不能理解论文中的偏导推导 ∂   l n F θ ( x ) ∂ x = ∂   l n ( g ( x ) ∘ L ) ∂ x = c ∂   l n g ( x ) ∘ L ∂ x \frac{\partial\, ln\mathcal{F}_{\theta}(x)}{\partial x}=\frac{\partial\, ln\Big(g(x)\circ L\Big)}{\partial x}=c\frac{\partial\, lng(x)\circ L}{\partial x} xlnFθ(x)=xln(g(x)L)=cxlng(x)L
也无法理解,如何从 ∀   x ∈ X , P r ( F θ ( x + Δ ) = y t ≠ F θ ( x ) ) ≥ 1 − μ \forall\,x\in\mathcal{X},Pr\Big(\mathcal{F}_{\theta}(x+\Delta)=y_t\neq \mathcal{F}_{\theta}(x)\Big)\geq1-\mu xX,Pr(Fθ(x+Δ)=yt=Fθ(x))1μ转换为 P x ∈ X ( ∂ ( l n g ( x ) − l n g ( x + Δ ) ) ∂ x ≥ η ) ≥ 1 − μ P_{x\in\mathcal{X}}\Big(\frac{\partial \big(lng(x)-lng(x+\Delta)\big)}{\partial x}\geq \eta\Big)\geq 1-\mu PxX(x(lng(x)lng(x+Δ))η)1μ

对于 weakness 2,论文中证明了,在使用 cosine similarity 排除掉与 trapdoor 样本相似度高的对抗样本后,攻击的成功概率下降了 ρ \rho ρ 概率,而 ρ \rho ρ 是用于注入 trapdoor 的样本概率分布 P X 1 P_{X_1} PX1 与应用对抗扰动的样本概率分布 P X 2 P_{X_2} PX2 的全变分距离 ∥ P X 1 − P X 2 ∥ \|P_{X_1}-P_{X_2}\| PX1PX2 的上限。但论文最后使用 countermeasures 对 trapdoor 模型进行测试没有提到将 ρ \rho ρ 降低的攻击策略。只提到了扩大用于注入 trapdoor 的样本数据的多样性和大小,能使得对抗样本更容易落在 honeypots 中。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值