高被引Top1团队综述:Adversarial Attacks and Defenses in Images, Graphs and Text: A Review【论文翻译】

     深度神经网络(DNN)逐渐代替传统模型,成为机器学习中最热门的工具,它已被成功应用于计算机视觉,自然语言处理等很多领域。然而,最近的研究表明,深度模型极容易被对抗样本攻击。人为稍微扰动模型的输入,可能导致模型给出完全相反的预测结果,从而出现差之毫厘、失之千里的错误。从此,对于深度模型在对抗样本的鲁棒性的研究成为机器学习的热门话题之一。
  4月,IJAC于最新一期发表美国工程院院士、密歇根州立大学Anil K. Jain团队和Jiliang Tang 团队合作带来的特约综述,第一作者为密歇根州立大学Xu Han博士。文章总结、讨论了与对抗样本及其应对策略相关的研究,系统且全面地综述了图像、图形、文本领域的前沿算法,概览了对抗攻击与防御(adversarial attacks and defenses)的主要技术与成果。
  文章下载地址:https://link.springer.com/article/10.1007/s11633-019-1211-x
  【摘要】:深度神经网络(DNN)在各个领域的众多机器学习任务中均取得了空前的成功。但是,对抗样本的存在引发了我们对将深度学习应用于安全关键型应用程序的担忧。 结果,我们目睹了对研究不同数据类型(例如图像,图形和文本)的DNN模型的攻击和防御机制的兴趣日益浓厚。 因此,有必要对攻击的主要威胁以及相应对策的成功进行系统而全面的概述。 在本文中,我们回顾了用于生成三种最流行的数据类型(包括图像,图形和文本)的对抗样本的最新算法以及针对对抗样本的对策。

1.介绍

     深度神经网络(DNN)在许多机器学习任务中变得越来越流行和成功。 它们已被部署到图像,图形,文本和语音领域的各种识别问题中,并取得了显著成功。 在图像识别领域,他们能够以接近人类水平的精度来识别物体[1、2]。 它们还用于语音识别[3],自然语言处理[4]和玩游戏[5]。
  由于这些成就,深度学习技术也被应用在安全关键型任务中。 例如,在自动驾驶汽车中,深度卷积神经网络(CNN)用于识别道路标志[6]。此处使用的机器学习技术要求高度准确,稳定和可靠。 但是,如果CNN模型无法在路边识别“停止”标志并且车辆继续行驶怎么办? 这将是危险的情况。 同样,在金融欺诈检测系统中,公司经常使用图卷积网络(GCN)[7]来确定其客户是否可信赖。 如果有欺诈者伪装其个人身份信息以逃避公司的发现,则将给公司造成巨大损失。 因此,深度神经网络的安全性问题已成为主要关注的问题。
  近年来,许多工作[2、8、9]表明DNN模型容易受到对抗性例子的攻击。可以正式定义为:“专家示例是攻击者故意设计的,导致模型犯错的机器学习模型的输入”。 在图像分类领域,这些对抗性例子是故意合成的图像,看起来与原始图像几乎完全相同(参见图1),但会误导分类器提供错误的预测输出。 对于MNIST数据集上训练有素的DNN图像分类器,几乎所有的数字样本都可能受到原始图像添加的不可察觉的扰动的攻击。 同时,在涉及图形,文本或音频的其他应用领域中,也存在类似的对抗攻击方案,以使深度学习模型混乱。 例如,仅干扰几个边缘会误导图神经网络[10],而将错别字插入句子可能会愚弄文本分类或对话系统[11]。 结果,所有应用领域中存在对抗性示例,这提醒研究人员不要在安全关键型机器学习任务中直接采用DNN。
  为了应对对抗样本的威胁,已经发布了一些研究报告,旨在寻找保护深度神经网络的对策。 这些方法可以粗略地分为三种主要类型:1)梯度掩蔽[12,13]:由于大多数攻击算法都是基于分类器的梯度信息,因此掩蔽或混淆梯度会混淆攻击机制。 2)鲁棒优化[14,15]:这些研究表明如何训练一个鲁棒的分类器,可以正确地对付对抗性例子。 3)对手检测[16,17]:该方法尝试在将样本提供给深度学习模型之前检查样本是良性还是有害。 可以将其视为防范对抗性示例的一种方法。 这些方法提高了DNN对对抗示例的抵抗力。
  除了建立安全可靠的DNN模型外,研究对抗性示例及其对策也有助于我们了解DNN的性质并因此对其进行改进。 例如,对抗性干扰在人眼上在感觉上是无法区分的,但可以逃避DNN的检测。 这表明DNN的预测方法与人类推理不符。 有著作[9,18]来解释和解释DNN对抗性示例的存在,这可以帮助我们对DNN模型有更多的了解。
  在这篇综述中,我们旨在总结和讨论有关对抗性例子及其对策的主要研究。 我们对来自图像,图形和文本域的最新算法进行了系统,全面的综述,概述了主要技术以及对对抗攻击和防御的贡献。
  该调查的主要结构如下:在第2节中,我们介绍了一些重要的定义和概念,这些定义和概念经常在对抗性攻击及其防御中使用。 它还给出了攻击和防御类型的基本分类法。 在第3和第4节中,我们讨论了图像分类场景中的主要攻击和防御技术。 我们使用第5节来简要介绍一些试图解释对抗性例子现象的研究。 第6节和第7节分别回顾了图形和文本数据的研究。

2.定义和符号

在本节中,我们简要介绍了模型攻击和防御的关键组成部分。 我们希望我们的解释可以帮助听众理解对抗攻击相关作品的主要内容及其对策。 通过回答以下问题,我们定义了主要术语:
1) 对手的目标(第2.1.1节)
攻击者的目标或目的是什么? 他是要误导分类器对一个样本的决策,还是影响分类器的整体性能?
2)对手的知识(第2.1.2节)攻击者可以获得哪些信息? 他是否知道分类器的结构,其参数或用于分类器训练的训练集?
3)受害者模型(第2.1.3节)对手通常会攻击哪种深度学习模型? 为什么对手有兴趣攻击这些模型?
4)安全评估(第2.2节)当面对对抗性示例时,我们如何评估受害者模型的安全性? 这些安全性指标与其他模型优度指标(例如准确性或风险)之间的关系和区别是什么?

2.1 威胁模型
2.1.1 对手的目标

1)中毒攻击与逃避攻击
  中毒攻击是指允许攻击者在DNN算法的训练数据库中插入/修改几个假样本的攻击算法。
  这些假样本可能导致训练有素的分类器失败。 它们可能会导致准确性差[19],或对某些给定的测试样本进行错误的预测[10]。 在攻击者可以访问训练数据库的情况下,经常会出现这种类型的攻击。 例如,基于Web的存储库和“蜜罐”通常会收集恶意软件示例进行培训,这为攻击者提供了毒害数据的机会。
  在逃避攻击中,分类器是固定的,通常在良性测试样本上具有良好的性能。
对手无权更改分类器或其参数,但会制作一些分类器无法识别的假样本。 换句话说,对手生成了一些欺诈性示例,以逃避分类器的检测。 例如,在自动驾驶汽车中,在停车标志上粘贴一些胶带会混淆车辆的道路标志识别器[20]。
2) 目标攻击与非目标攻击
  在有目标攻击中,当给出受害者样本(x,y)时,x是特征向量,y是x的正确标注数据,对手的目标是诱导分类器为受干扰的样本x‘提供一个特定的标签t。例如,欺诈者很可能会攻击金融公司的信用评估模型,从而伪装成该公司的高度可信客户。如果受害者样本没有指定目标标签t,则该攻击称为非目标攻击。对手只希望分类器错误地预测。

2.1.2 Adversary′s knowledge
  1. 白盒攻击
    在白盒设置中,对手可以访问目标神经网络的所有信息,包括其体系结构,参数,梯度等。对手可以充分利用网络信息来精心制作对抗样本。白盒攻击已经得到广泛的研究因为模型结构和参数的公开,帮助人们清楚地了解DNN模型的弱点,并且可以对其进行数学分析,正如Tramer等人[21]所述,针对白盒攻击的安全性是我们希望机器学习(ML)模型具有的特性。

2)黑盒攻击
在黑盒攻击设置中,DNN模型的内部配置是无法获得的,攻击者只能提供输入数据并查询模型的输出。他们通常会通过将样本喂入盒子并观察输出来利用模型的输入-输出关系并识别其弱点来攻击模型。与白盒攻击相比,黑盒攻击在应用程序中更为实用,因为模型设计者通常由于专有的原因不开源其模型参数。
3)半白盒攻击
在半白盒攻击或者灰盒攻击环境中,攻击者训练一种生成模型,用来在白盒环境中生成对抗样本。一旦训练了生成模型,攻击者不再需要受害者模型,可以在黑盒环境中制作对抗样本。

2.1.3 受害者模型

我们简要总结了容易受到对抗样本攻击的机器学习模型,以及在图像,图形和文本数据域中使用的一些流行的深度学习架构。 在我们的评论中,我们主要讨论深度神经网络的对抗样本的研究。
1) 传统的机器学习模型
对于传统的机器学习工具,研究安全问题历史悠久。 Biggio等人[22] 攻击支持向量机(SVM)分类器和MNIST数据集的全连接FC浅层神经网络。Barreno等人[23] 检查基于贝叶斯方法的垃圾邮件检测软件SpamBayes的安全性。 在[24]中,检查朴素贝叶斯分类器的安全性。这些思想和策略中的许多已被用于深度神经网络的对抗攻击研究中。
2) 深度神经网络
不同于需要领域知识和手动特征工程的传统机器学习计数,DNN是端到端的学习算法。模型直接使用原始数据作为模型的输入,并学习对象的基础结构和属性。DNN端到端的结构使得对手可以轻松的利用其弱点,生成高质量的欺骗性输入(对抗样本)。此外,由于DNN的隐式性质,其某些属性仍未被很好地理解或解释。 因此,有必要研究DNN模型的安全性问题。 接下来,我们将简要介绍一些流行的受害者深度学习模型,这些模型在攻击/防御研究中用作“基准”模型。
a) 全连接神经网络
全连接的神经网络由人工神经元的层组成。 在每一层中,神经元都从上一层获取输入,使用激活功能对其进行处理,然后将其发送到下一层; 第一层的输入为sample x,最后一层的(softmax)输出为score F(x)。 可以形成一个层的全连接神经网络
在这里插入图片描述
要注意的一件事是,反向传播算法有助于计算 在这里插入图片描述,这使得梯度下降对学习参数有效,在对抗学习中,反向传播算法有助于计算在这里插入图片描述 ,代表输出对输入变化的响应。这个术语在研究中被广泛采用,用来生成对抗样本。

b) 卷积神经网络
在计算机视觉任务中,CNN是使用最广泛的模型之一。CNN模型聚合图像中的局部特征,以学习图像对象的表示形式。CNN可以视为全连接神经网络的稀疏版本,层以层之间的大多数权重为0,它的训练算法和梯度计算也可以完全从全连接的神经网络继承。
c) 图卷积网络
Kipf和Welling [7]引入的图卷积网络的工作成为流行的图数据节点分类模型。 图卷积网络的概念类似于CNN:它将来自邻居节点的信息进行汇总,以学习每个节点的表示形式,并输出分数F(v,X)进行预测:
在这里插入图片描述
其中x表示输入图的特征矩阵,A^取决于图度矩阵和领接矩阵。
d) 循环神经网络
循环神经网络对于处理顺序数据非常有用。 结果,它们被广泛用于自然语言处理中。 RNN模型,特别是基于长期短期记忆的模型(LSTM)[4],能够将先前的时间信息存储在存储器中,并利用先前序列中的有用信息进行下一步预测。

2.2 安全性评估

我们还需要评估模型对对抗样本的抵抗力。 “鲁棒性”和“对抗风险”是用于描述DNN模型对单个样本和全部样本的抵抗力的两个术语。

2.2.1 鲁棒性

定义1.最小扰动:给定F的数据(x,y),对抗性扰动的范数最小(最不明显的扰动)
在这里插入图片描述
定义2.鲁棒性:最小扰动的准则
在这里插入图片描述
定义3,全局鲁棒性,整个样本对鲁棒性的期望 :在这里插入图片描述
最小扰动可以找到与该模型F下与x最相似的对抗样本。因此r(x,F)或者rou(F)越大,攻击者就需要牺牲更多相似性来生成对抗样本,意味着分类器F更可靠更安全。

2.2.2 对抗风险(loss)

定义4,最具对抗性的样本
定义5,对抗损失
定义6,全局对抗损失。

2.2.3 对抗风险与风险

对抗风险的定义来自于分类风险,

2.3 符号在这里插入图片描述

3 生成对抗样本

在本节中,我们介绍了在图像分类领域中生成对抗样本的主要方法。
在图像领域中研究对抗样本被认为是必不可少的,因为:1)伪图像和良性图像之间的感知相似性对观察者而言是直观的,并且2)图像数据和图像分类器的结构比其他域(如图形或音频)更简单。 因此,许多研究将攻击图像分类器作为标准案例。 在本节中,我们假设图像分类器是指全连接的神经网络和卷积神经网络[1]。 这些研究中使用的最常见的数据集包括1)手写字母图像数据集MNIST,2)CIFAR10对象数据集和3)ImageNet [29]。接下来我们介绍一些主要方法,这些方法用来生成针对逃避攻击(白盒、黑盒、灰盒、)的对抗图像样本和投毒攻击(插入或修改某些训练样本)。

3.1 白盒攻击

通常,在白盒攻击环境中,将分类器C(模型F)和受害者样本(x,y)提供给攻击者时,他的目标是合成在感知上与原始图像x相似的伪图像x‘,但是这可能会误导分类器C给出错误的预测结果 。 可以表示为满足:
在这里插入图片描述

3.1.1 Biggio′s attack

在MNIST数据集上,以SVMs及三层FC为目标,通过优化判别式函数(最小化)来误导分类器实现攻击。
在这里插入图片描述

3.1.2 BFGS (L-BFGS) attack

搜索最小失真的对抗样本x'
目标函数:在这里插入图片描述
引入近似的损失函数:在这里插入图片描述
在此问题的优化目标中,第一项关注x’和x的相似性,第二项鼓励找到x’使得标签t的损失值较小,所以分类器C更可能预测x‘为t,通过不断更改常数c的值,可以发现与x有着最小距离的x’,同时误导分类器C。

3.1.3 快速梯度符号法FGSM

一步法快速生成对抗样本, FGSM 算法既可以进行目标攻击,也可进行无目标攻击。
在这里插入图片描述
在这里插入图片描述

3.1.4 deep fool

在数据点x周围学习一个分类器决策边界,找到一个可以使x超过决策边界的路径:
在这里插入图片描述
  计算样本x0到决策边界的正交向量,并按照向量移动样本x0,直到x0’分类错误。
  DeepFool实验表明,对于通常的DNN图像分类模型,几乎所有的测试样本都非常接近他们的决策边界,如LeNet超过90%的样本可以被小的扰动(l的无穷范数小于0.1)所攻击。
  Deepfool为了能够使得分类器模型产生误识别的最小扰动,deepfool算法每次迭代都计算当前样本和各决策边界的距离,然后选择向最近的决策边界迭代生成扰动。Deepfool算法能生成L0、L2、和L∞三种范数距离的对抗样本。

3.2 物理世界攻击

先前引入的所有攻击方法均以数字方式应用,在此情况下,对手将输入图像直接提供给机器学习模型。 但是,在某些情况下(例如使用摄像头,麦克风或其他传感器接收信号作为输入的情况)并非总是如此。 在这种情况下,我们仍然可以通过生成物理世界的对抗对象来攻击这些系统吗? 最近的工作表明确实存在这种攻击。 例如,工作[20]在路标上贴了贴纸,这些贴纸会严重威胁自动驾驶汽车的标志识别器。 这些对抗对象对于深度学习模型更具破坏性,因为它们可以直接挑战DNN的许多实际应用,例如人脸识别,自动驾驶汽车等。

3.2.1 探索物理世界中的对抗样本

在工作[15]中,作者通过检查生成的对抗图像(FGSM,BIM)在自然变换(例如改变角度,照明等)下是否“健壮”,探索了制作物理对抗对象的可行性。 在这里,“稳健”是指制作的图像在转换后仍保持对抗性。
为了应用转换,他们打印出了精心制作的图像,并让测试对象使用手机拍摄这些打印输出的照片。 在此过程中,不受拍摄角度或光照环境的限制,因此,获取的照片将转换为先前生成的对抗示例的样本。 实验结果表明,变换后,这些对抗性示例中的很大一部分,尤其是那些由FGSM生成的对抗性示例,仍然对分类器具有对抗性。 这些结果表明存在物理对抗性物体的可能性,这些物体可能会欺骗不同环境下的传感器。

3.2.2 对路标的Eykholt′s attack

如图5所示,工作[20]通过“污染”路标来误导路标识别器,从而制作出物理对抗对象。 他们通过将贴纸贴在停车牌上所需的位置来实现攻击。
作者的方法包含:(1)实施基于L1范数的攻击在路标的数字图像上大致找到需要扰动的区域。L1攻击会产生稀疏的扰动,这有助于找到攻击的位置。这些区域将在以后称为粘贴位置。(2)专注于在步骤一中找到的区域没使用基于L2范数的攻击来生成贴纸的颜色。(3)输出步骤1和2中发现的扰动,然后将其粘贴在路标上,扰动的停车标志会从任何距离和角度混淆自动驾驶汽车。
在这里插入图片描述

3.2.3 Athalye′s 3D adversarial object

在工作[47]中,作者报告了成功制作出物理3D对抗对象的第一项工作。 如图6所示,作者使用3D打印来制造“对抗性”乌龟。 为了实现他们的目标,他们实施了3D渲染技术。 给定带纹理的3D对象,它们首先优化对象的纹理,以使渲染图像从任何角度来看都是对抗性的。 在此过程中,他们还确保扰动在不同环境下保持对抗性:相机距离,光照条件,旋转和背景。 找到3D渲染的扰动后,他们打印3D对象的实例。
在这里插入图片描述

3.3 黑盒攻击
3.3.1 替代模型

在攻击者无法访问分类器的参数或训练集(黑盒)的情况下,这项工作[48]首次引入了一种有效的算法来攻击DNN分类器。 攻击者只能输入x以从分类器获取输出标签y。另外,对手可能仅具有以下方面的部分知识:1)分类器的数据域(例如,手写数字,照片,人脸)和2)分类器的体系结构(例如,CNN,RNN)。
作者[48]利用了对抗样本的“可传递性”(第5.3节)性质:样本x’可以攻击F1,也可能攻击F2,其结构与F1相似。 因此,作者介绍了一种训练替代模型F’以模仿目标受害者分类器F的方法,然后通过攻击替代模型来F’制作对抗性示例。 主要步骤如下:
1) 合成替代训练集
制作一个副本训练集,例如,要攻击用于手写数字识别任务的受害者分类器,可以通过以下方式制作初始替代训练集:a)从测试集中获取样本,b)手工制作样本。

2) 训练替代模型
将替代输入数据集X输入到受害者分类器中去获得他们的标签Y。选择一种替代DNN模型进行训练以得到F’。根据攻击者知识,选择的DNN应该具有与受害者模型相似的结构。

3) 数据集扩充
扩充数据集(X,Y)并且迭代地重新训练替代模型。该程序有助于增加副本训练集的多向性并提高替代模型F’的准确性。
4) 攻击该替代模型
利用先前介绍的攻击方法,例如FGSM攻击算法去攻击模型F’。产生的对抗样本同样很可能由于可转移性的性质而误导目标模型F。
我们应该选择哪种攻击算法来攻击替代模型呢?替代模型黑盒攻击的成功基于对抗样本的可转移属性。因此,在黑盒攻击中,我们选择具有高可转移性的攻击,例如FGSM,PGD和基于动量的迭代攻击。

5. 对抗样本存在性研究。

5.1 为什么存在对抗样本
Szegedy的L-BFGS攻击[8]等一些原始著作指出,对抗性示例的存在是由于DNN模型无法在数据的低概率空间中很好地推广这一事实。 泛化问题可能是由DNN模型结构的高度复杂性引起的。

然而,在工作[9]中,即使线性模型也容易受到对抗性攻击。 此外,在工作[14]中,他们进行实验以表明增加模型容量将提高模型的鲁棒性。
通过研究模型的决策边界,可以了解对抗性样本的存在。 对抗样本几乎总是接近自然训练模型的决策边界,这可能是因为决策边界太平摊,太弯曲或者不灵活。
因此研究对抗样本存在的原因很重要,可以知道我们设计更可靠的模型,并帮组我们理解现有的模型。

5.2 我们能建立一个最佳分类器吗?

许多最新的工作假设,可能无法构建最佳鲁棒的分类器。 例如,研究[95]声称对抗样本是不可避免的,因为每个类别中的数据分布都没有很好地集中,这为对抗样本留下了空间。 从这个角度来看,工作[96]声称要提高训练模型的鲁棒性,有必要收集更多的数据。 此外,工作中的作者[25]建议,即使我们可以建立具有高鲁棒性的模型,也必须付出一定准确性的代价。

5.3 什么是可转移性

可传递性是对抗样本的关键属性之一。 这意味着针对一个受害者模型而生成的对抗样本也极有可能误导其他模型。
一些研究工作比较了不同攻击算法之间的可传递性。 在工作中[31],作者声称在ImageNet中,在相同的扰动强度下,单步攻击(FGSM)比迭代攻击(BIM)更可能在模型之间传递。
可转移性的性质在黑匣子环境下的攻击技术中经常被利用[48]。 如果将模型参数掩盖给攻击者,他们可以转向攻击其他替代模型并享受其生成样本的可传递性。 如工作[87]中所述,防御方法也利用了可转移性的性质:由于模型A的对抗样本也可能是模型B的对抗样本,因此使用的对抗样本B进行的对抗训练将有助于防御A。

7、 音频和文本数据中的对抗样本。

     DNN在音频和文本领域的应用程序中也存在对抗样本。 对手可以制作虚假的言论或虚假的句子,从而误导机器语言处理器。 同时,针对音频/文本数据的深度学习模型已被广泛用于许多任务,例如Apple Siri和Amazon Echo。 因此,对音频/文本数据领域对抗样本的研究也值得我们关注。
  对于文本数据,输入的离散性使得对图像的基于梯度的攻击不再适用,并且迫使人们对文本的不同粒度(字符级,单词级,句子级等)进行离散扰动。 在本节中,我们介绍针对不同任务攻击NLP体系结构的相关工作。

7.1 语音识别攻击

Carlini和Wagner [106]研究攻击了最新的语音转文本转录网络,例如DeepSpeech [107]。 在他们的设置中,当给定任何语音波形x时,他们可以添加听不见的声音扰动a,使合成语音x+a被识别为任何目标所需短语。
在他们的攻击工作中,他们在任何时候都限制了最大分贝(dB)的增加的摄动噪声,以使音频失真不明显。而且,他们在音频攻击设置上继承了C&W的攻击方法[34]

7.2 文本分类攻击

文本分类是自然语言处理中的主要任务之一。 在文本分类中,该模型旨在理解句子并正确标记句子。 例如,文本分类模型可以应用于IMDB数据集,以基于用户提供的评论来表征用户对电影的观点(正面或负面)。 对抗性攻击的最新工作表明,文本分类器很容易被对手稍加修改文本的拼写,单词或结构而误导。

7.2.1攻击词嵌入

文献[108]考虑在词嵌入[109]上增加扰动,以欺骗LSTM [4]分类器。但是,此攻击仅考虑干扰单词嵌入,而不是原始输入句子本身。

7.2.2 处理单词,字母

HotFlip [11]工作考虑替换句子中的字母,以误导字符级文本分类器(每个字母都编码为向量)。 例如,如图11所示,更改句子中的单个字母会更改模型对其主题的预测。 攻击算法设法通过梯度信息找到最有影响力的字母替换来实现这一目标。这些对抗性的干扰可以被人类读者注意到,但它们不会改变文本的整体内容,也不会影响人类的判断。
工作[110]考虑在单词,短语级别上操纵受害者的句子。 他们尝试添加,删除或修改句子中的单词和短语。在他们的方法中,第一步类似于HotFlip [11]。对于每个训练样本,他们会找到最有影响力的字母,称为“热门人物”。 然后,他们将具有3个以上“热门字符”的单词标记为“热门单词”。 “热门单词”组合为“热门短语”,是句子中最有影响力的短语。 操作这些短语可能会影响模型的预测,因此这些短语会组合一个“词汇”来指导攻击。 当给对手一个句子时,他可以使用该词汇表来查找句子的弱点,添加一个热门短语,删除给定句子中的热门短语或插入由热门短语组成的有意义的事实。
DeepWordBug [111]和TextBugger [112]是用于文本分类的黑盒攻击方法。 前者的基本思想是定义一种评分策略,以识别关键标记,如果修改这些标记将导致对分类器的错误预测。 然后,他们尝试对此类令牌进行四种类型的“难以理解的”修改:交换,替换,删除和插入,以误导分类器。 后者遵循相同的想法,并通过引入新的评分功能对其进行了改进。
Samanta和Mehta的作品[113],Iyyer等人[114] 开始制作在语法上纠正和维护原始句子语法结构的对抗性句子。 Samanta和Mehta [113]通过使用同义词替换原始单词或添加一些在不同上下文中具有不同含义的单词来实现这一目标。 另一方面,Iyyer等人[114] 通过解释句子的结构来愚弄文本分类器。
Witbrock [115]对输入文本进行句子和单词的释义,以制作对抗性例子。 在这项工作中,他们首先构建了一个释义语料库,其中包含许多单词和句子释义。 为了找到输入文本的最佳释义,采用贪婪方法从语料库中为每个单词或句子搜索有效的释义。 此外,他们提出了一种梯度引导方法来提高贪婪搜索的效率。 这项工作在理论上也有重要贡献:他们正式将离散对抗攻击的任务定义为对集合函数的优化问题,并且证明了贪心算法可确保CNN和RNN文本分类器的近似因子。

7.3 其他NLP任务中的对抗样本
7.3.1 对阅读理解系统的攻击

在工作中[116],作者研究了阅读理解模型是否容易受到对抗性攻击。 在阅读理解任务时,要求机器学习模型根据文章段落的“理解”回答给定的问题。 例如,工作[116]专注于斯坦福问答数据集(SQuAD),其中系统回答有关维基百科段落的问题。通过插入对抗性句子,作者成功地降低了SQuAD上最新阅读理解模型的智能。 如图12所示,插入的句子(蓝色)看起来类似于问题,但与正确答案并不矛盾。 这个插入的句子对于人类读者来说是可以理解的,但是却使机器非常混乱。 结果,所提出的攻击算法将16种最新阅读理解模型的性能从平均75%F1得分(准确性)降低到36%。
他们提出的算法AddSent显示了四步操作来查找对抗性句子。
1)假问题:在冠军杯XXXIV中,球衣号码为37的四分卫的名字是什么?
2)假答案:Jeff Dean。
3)声明形式的问题:四分卫杰夫·迪恩(Jeff Dean)是冠军杯XXXIV的第37号球衣。
4)语法正确:四分卫杰夫·迪恩(Jeff Dean)在冠军杯XXXIV中拥有37号球衣。

7.3.2 对神经机器翻译的攻击

这项工作[117]研究了机器学习翻译工具的输入句子是否受到自然错误(打字错误,拼写错误等)和手工制作的失真(字母替换,字母重新排序)的干扰。 实验结果表明,最新的翻译模型容易受到两种类型的错误的影响,并建议进行对抗训练以提高模型的鲁棒性。
Seq2Sick [118]尝试在神经机器翻译和文本摘要中攻击seq2seq模型。 在他们的设置中,设定了两个攻击目标:误导模型以生成与基本事实重叠的输出,并导致模型产生具有针对性关键字的输出。 该模型被视为白盒,作者将攻击问题表述为优化问题,他们试图通过最小化类似于铰链的损失函数来解决离散扰动。

7.4 对话生成

      与上面明确定义成功和失败的任务不同,在对话任务中,对于给定的上下文没有唯一的适当响应。 因此,关于攻击对话模型的工作,不是误导训练有素的模型以产生不正确的输出,而是寻求探索神经对话模型的特性,以使其受到输入扰动的干扰,或引导模型输出目标响应。
  在研究中[119],作者通过使用一些启发式技术来修改原始输入并观察相应的输出,从而探索了神经对话模型的过度敏感性和过度稳定性。 他们通过检查输入修改后输出是否显着变化来评估对话模型的鲁棒性,但不考虑目标输出。 他们还研究了使用这些对抗性示例重新训练对话模型时所产生的影响,以提高基础模型的鲁棒性和性能。
  在工作[120]中,作者试图找到触发输入,这些输入可以导致神经对话模型产生有针对性的严重反应。 他们设计了一种基于搜索的方法来确定输入中的单词,从而使目标响应的生成概率最大化。然后,他们将对话模型视为白盒,并利用渐变信息来缩小搜索空间。 最终,他们表明,该方法适用于“正常”目标响应,这些响应正在解码某些输入语句的结果,但对于手动编写的恶意响应而言,它很难成功。
工作[121]将神经对话模型视为黑匣子,并采用了强化学习框架来有效地找到针对性响应的触发输入。 黑盒设置更严格,但更现实,同时适当放松了对生成的响应的要求。 预期生成的响应在语义上与目标响应相同,但不一定与它们完全匹配。

  • 未完
  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Adversarial attacks are a major concern in the field of deep learning as they can cause misclassification and undermine the reliability of deep learning models. In recent years, researchers have proposed several techniques to improve the robustness of deep learning models against adversarial attacks. Here are some of the approaches: 1. Adversarial training: This involves generating adversarial examples during training and using them to augment the training data. This helps the model learn to be more robust to adversarial attacks. 2. Defensive distillation: This is a technique that involves training a second model to mimic the behavior of the original model. The second model is then used to make predictions, making it more difficult for an adversary to generate adversarial examples that can fool the model. 3. Feature squeezing: This involves converting the input data to a lower dimensionality, making it more difficult for an adversary to generate adversarial examples. 4. Gradient masking: This involves adding noise to the gradients during training to prevent an adversary from estimating the gradients accurately and generating adversarial examples. 5. Adversarial detection: This involves training a separate model to detect adversarial examples and reject them before they can be used to fool the main model. 6. Model compression: This involves reducing the complexity of the model, making it more difficult for an adversary to generate adversarial examples. In conclusion, improving the robustness of deep learning models against adversarial attacks is an active area of research. Researchers are continually developing new techniques and approaches to make deep learning models more resistant to adversarial attacks.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值