Paper review: Using Honeypots to Catch Adversarial Attacks on Neural Network

最新推荐文章于 2024-07-24 21:01:17 发布

究极人工智能瞎琢磨

最新推荐文章于 2024-07-24 21:01:17 发布

阅读量588

点赞数 2

分类专栏： Paper notes 文章标签：深度学习

本文链接：https://blog.csdn.net/joymakleson/article/details/107897621

版权

Paper notes 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Using Honeypots to Catch Adversarial Attacks on Neural Network

Summary
Strength
Weakness
Comment

Summary

作者引入 trapdoor 的概念来防御对抗攻击，trapdoor 相当于注入原始数据集的噪声扰动，且从正态分布中随机采样得到，记为 $\Delta$ 。一个精心设计的 $\Delta$ 对应于一个指定的保护标记 $y_t$ 。在训练过程中，同时最小化正常输入的分类损失和具有 $\Delta$ 扰动的输入的分类与其保护标记 $y_t$ 的损失。这样就为那些企图被误分类为 $y_t$ 的对抗样本提供了一个 honeypot （局部最小点），对抗样本的生成过程最终大概率会被引诱至这一点。

文中也证明了，在对抗样本与 trapdoor 的相似度（cosine similarity ）较高的情况下，排除这类对抗样本，攻击成功率大概率下降。因此可通过 cosine similarity 检测出的相似度，来排除对抗样本。

接下来，分别在 6 个静态对抗攻击方法和 4 个数据集中测试该方法的对抗样本检测成功率，并与 4 个现有防御系统做对照，取得明显的优势。最后，测试 trapdoor 模型在一些适应性攻击及更强大的白盒攻击的对抗样本检测成功率，模型表现只有轻微或小幅度下降。

Strength

测试了多种攻击方法以及多个数据集，并且与现有防御系统进行比照实验，充分表现了作者提出的 trapdoor 模型不仅兼顾多种攻击，而且优于其他防御模型。
测试了更高级的攻击（countermeasures），并按照攻击者对 trapdoor 模型的认识程度依次测试。只有攻击者充分了解 trapdoor 模型的参数，其对抗样本检测正确率才有小幅度下降。

Weakness

数学证明晦涩难懂。
论文最后的 countermeasures 测试中，没有针对生成对抗样本的概率分布着手的 countermeasures 。

Comment

对于 weakness 1，不能理解论文中的偏导推导 $\frac{\partial\, ln\mathcal{F}_{\theta}(x)}{\partial x}=\frac{\partial\, ln\Big(g(x)\circ L\Big)}{\partial x}=c\frac{\partial\, lng(x)\circ L}{\partial x}$
也无法理解，如何从 $\forall\,x\in\mathcal{X},Pr\Big(\mathcal{F}_{\theta}(x+\Delta)=y_t\neq \mathcal{F}_{\theta}(x)\Big)\geq1-\mu$ 转换为 $P_{x\in\mathcal{X}}\Big(\frac{\partial \big(lng(x)-lng(x+\Delta)\big)}{\partial x}\geq \eta\Big)\geq 1-\mu$

对于 weakness 2，论文中证明了，在使用 cosine similarity 排除掉与 trapdoor 样本相似度高的对抗样本后，攻击的成功概率下降了 $\rho$ 概率，而 $\rho$ 是用于注入 trapdoor 的样本概率分布 $P_{X_1}$ 与应用对抗扰动的样本概率分布 $P_{X_2}$ 的全变分距离 $P_{X_1}-P_{X_2}\|$ 的上限。但论文最后使用 countermeasures 对 trapdoor 模型进行测试没有提到将 $\rho$ 降低的攻击策略。只提到了扩大用于注入 trapdoor 的样本数据的多样性和大小，能使得对抗样本更容易落在 honeypots 中。

究极人工智能瞎琢磨

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Paper review: Using Honeypots to Catch Adversarial Attacks on Neural Network

Gotta Catch ’Em All: Using Honeypots to Catch Adversarial Attacks on Neural NetworkSummaryStrengthWeaknessCommentSummaryStrengthWeaknessComment
复制链接

扫一扫

专栏目录