【DAGAER】传统的攻击方法依赖于约束优化范式,具有局限性,例如经典的Nettack攻击方法。本文提出了一个统一的白盒对抗攻击生成框架,该方法学习了目标域的深度生成模型,不是在原始输入空间中生成对抗性例子,而是学习在一个低维连续的潜在空间中生成扰动。该方法的优势是可以适应不同的输入域,比如输入为图像、文本和图结构数据,并且能有效地产生不同的对抗扰动。
基本信息:
- 2019 arXiv
- 引用量:0
- 作者学校:McGill University
- model:GCN
- Strategy:Adversarial generation
- Approach:Modify node features
- Baseline:Nettack
- Metric:ASR
- Dataset:Cora,Citeseer
查询会议:
- 会伴:https://www.myhuiban.com/
- CCF deadline:https://ccfddl.github.io/
原文和开源代码链接:
- paper原文:https://www.researchgate.net/publication/333418210_Generalizable_Adversarial_Attacks_Using_Generative_Models
- 开源代码:None
0、核心内容
本文提出了一种新的对抗攻击方法,称为DAGAER(Domain-Agnostic Generative Adversarial Examples with Resampling),它利用生成模型来创建对抗性样本。
对抗攻击的背景:传统上,对抗攻击依赖于受限优化范式,通过优化过程为给定的输入示例生成单一的对抗性扰动。
DAGAER框架:提出了一种新的视角,将对抗攻击视为生成模型问题,目标是给定未扰动的输入产生整个对抗性样本的分布。DAGAER是一个统一的编码器-解码器框架,具有领域泛化性,可以最小修改地应用于不同领域。
领域泛化性:DAGAER能够跨图像、文本和图等不同领域生成白盒攻击,并且在图领域达到了新的最佳状态。
攻击效率与多样性:DAGAER可以为单一给定输入有效性生成多样化的攻击集,并且能够以零样本的方式攻击未见过的测试实例,展现出攻击泛化能力。
方法细节:
- 模型概述:DAGAER由编码器网络、解码器网络、组合函数和相似度函数组成。
- 训练与损失函数:定义了一个混合目标函数,包括一个惩罚非对抗性生成点的分类损失和两个正则化项。
- 不同输入领域的实现:展示了如何在图像分类、文本分类和节点分类模型上应用DAGAER框架。
实验:在自然图像、文本数据和图结构数据的分类任务上测试了DAGAER框架,以回答领域泛化性、攻击泛化性和攻击多样性的问题。
结果:DAGAER在图像领域与受限优化方法具有竞争力,在文本和图领域表现出色。此外,DAGAER在攻击未见过的测试及时表现出有效的泛化能力,并且在攻击多样性方面,通过重新采样潜在代码来生成新的对抗样本。
未来工作:论文讨论了DAGAER的局限性和未来可能的研究方向,包括探索更复杂的潜在分布、扩展到黑盒设置以及使用各种对抗性防御策略进行进一步的实证研究。
1、理解本文算法的三个benefits
① 与域无关
通过简单地选择一个适当的编码器、解码器和相似度函数,DAGAER框架可以很容易地部署在不同领域,例如图像、文本和图结构数据。
② 高效的泛化能力
具体来说,这意味着使用带有随机潜在变量的参数化模型可以在构建对抗性示例时,通过训练后的网络仅单次传递,就能够高效低生成这些对抗性示例,并且无需进一步的优化就能泛化到未见过的测试示例上。
在受限优化方法中,每次针对不同的输入数据点进行特定的优化,这通常只会产生单一的或少量的非多样性扰动。相比之下,DAGAER通过学习潜在空间中的条件分布,可以有效地采样产生多样化的攻击,或者在初始攻击失败时重新采样。这种泛化能力允许模型在面对新的、训练时未见过的数据时,也能够生成有效的对抗性扰动,从而提高了攻击的适应性和实用性。
③ 多样化的攻击
这一点强调的是DAGAER框架能够学习到对抗性示例的条件分布,这意味着可以高效地从中采样以产生多样化的攻击,或者在初始攻击失败时用于重新采样。
具体来说,这种优势包括以下几个方面:
- 条件分布学习:DAGAER不仅生成单一的对抗性扰动,而是学习到了在给定输入数据条件下,所有可能对抗性扰动的分布。
- 高效采样:由于有了这个分布,DAGAER可以高效地从中采样,得到多种不同的对抗性扰动实例,增加了攻击的不可预测性。
- 重新采样的能力:如果某个特定的对抗性样本在攻击过程中失败了,DAGAER可以利用潜在的随机性,重新采样产生新的对抗性扰动,从而尝试不同的攻击策略。
- 攻击多样性:这种方法允许攻击者针对同一输入数据点生成多种不同的对抗性扰动,这不仅提高了攻击成功的机会,同时也使得防御变得更加困难。
DAGAER框架在生成对抗性样本时具有高度的灵活性和多样性,能够适应不同的攻击场景和需求。
2、受限优化方法与Nettack攻击方法
① 什么是受限优化方法(Constrained Optimization Approach)?
受限优化方法是一种在生成对抗攻击时常用的技术。该方法的核心是在一定的约束条件下,通过优化过程寻找能够使深度学习模型发生误判的最小扰动。
目标函数:定义一个目标函数,通常是希望扰动后的输入 x ′ x' x′能够导致模型 f ( x ′ ) f(x') f(x′)产生与原始类别不同的预测 y ′ y' y′。
约束条件:在优化过程中加入约束,以确保生成的对抗性样本 x ′ x' x′与原始样本 x x x在某种度量下足够接近,同时 x ′ x' x′仍然是一个有效的输入(例如,在像素空间中是有效的图像)。
优化过程:使用梯度下降或其他优化算法来最小化目标函数,同时满足约束条件。这通常涉及到对原始输入数据点 x x x添加一个小的扰动 δ δ δ,使得 x ′ = x + δ x'=x+δ x′=x+δ<