论文《Generalizable Adversarial Attacks Using Generative Models》笔记_progen: projection-based adversarial attack genera-CSDN博客

本文链接：https://blog.csdn.net/bunny___/article/details/140262041

【DAGAER】传统的攻击方法依赖于约束优化范式，具有局限性，例如经典的Nettack攻击方法。本文提出了一个统一的白盒对抗攻击生成框架，该方法学习了目标域的深度生成模型，不是在原始输入空间中生成对抗性例子，而是学习在一个低维连续的潜在空间中生成扰动。该方法的优势是可以适应不同的输入域，比如输入为图像、文本和图结构数据，并且能有效地产生不同的对抗扰动。

基本信息：

2019 arXiv
引用量：0
作者学校：McGill University
model：GCN
Strategy：Adversarial generation
Approach：Modify node features
Baseline：Nettack
Metric：ASR
Dataset：Cora，Citeseer

查询会议：

会伴：https://www.myhuiban.com/
CCF deadline：https://ccfddl.github.io/

原文和开源代码链接：

paper原文：https://www.researchgate.net/publication/333418210_Generalizable_Adversarial_Attacks_Using_Generative_Models
开源代码：None

0、核心内容

本文提出了一种新的对抗攻击方法，称为DAGAER（Domain-Agnostic Generative Adversarial Examples with Resampling），它利用生成模型来创建对抗性样本。

对抗攻击的背景：传统上，对抗攻击依赖于受限优化范式，通过优化过程为给定的输入示例生成单一的对抗性扰动。

DAGAER框架：提出了一种新的视角，将对抗攻击视为生成模型问题，目标是给定未扰动的输入产生整个对抗性样本的分布。DAGAER是一个统一的编码器-解码器框架，具有领域泛化性，可以最小修改地应用于不同领域。

领域泛化性：DAGAER能够跨图像、文本和图等不同领域生成白盒攻击，并且在图领域达到了新的最佳状态。

攻击效率与多样性：DAGAER可以为单一给定输入有效性生成多样化的攻击集，并且能够以零样本的方式攻击未见过的测试实例，展现出攻击泛化能力。

方法细节：

模型概述：DAGAER由编码器网络、解码器网络、组合函数和相似度函数组成。
训练与损失函数：定义了一个混合目标函数，包括一个惩罚非对抗性生成点的分类损失和两个正则化项。
不同输入领域的实现：展示了如何在图像分类、文本分类和节点分类模型上应用DAGAER框架。

实验：在自然图像、文本数据和图结构数据的分类任务上测试了DAGAER框架，以回答领域泛化性、攻击泛化性和攻击多样性的问题。

结果：DAGAER在图像领域与受限优化方法具有竞争力，在文本和图领域表现出色。此外，DAGAER在攻击未见过的测试及时表现出有效的泛化能力，并且在攻击多样性方面，通过重新采样潜在代码来生成新的对抗样本。

未来工作：论文讨论了DAGAER的局限性和未来可能的研究方向，包括探索更复杂的潜在分布、扩展到黑盒设置以及使用各种对抗性防御策略进行进一步的实证研究。

1、理解本文算法的三个benefits

在这里插入图片描述

① 与域无关

通过简单地选择一个适当的编码器、解码器和相似度函数，DAGAER框架可以很容易地部署在不同领域，例如图像、文本和图结构数据。

② 高效的泛化能力

具体来说，这意味着使用带有随机潜在变量的参数化模型可以在构建对抗性示例时，通过训练后的网络仅单次传递，就能够高效低生成这些对抗性示例，并且无需进一步的优化就能泛化到未见过的测试示例上。

在受限优化方法中，每次针对不同的输入数据点进行特定的优化，这通常只会产生单一的或少量的非多样性扰动。相比之下，DAGAER通过学习潜在空间中的条件分布，可以有效地采样产生多样化的攻击，或者在初始攻击失败时重新采样。这种泛化能力允许模型在面对新的、训练时未见过的数据时，也能够生成有效的对抗性扰动，从而提高了攻击的适应性和实用性。