检测。。。。

综述Adversarial Example Detection for DNN Models: A Review

2021

(1)Detecting Adversarial Image Examples in Deep Neural Networks with Adaptive Noise Reduction

在本文中提出了一种直接检测对抗图像实例的方法,该方法可以直接部署到未经修改的现成DNN模型中。我们把对图像的扰动看作是一种噪声,并引入两种经典的图像处理技术——标量量化和平滑空间滤波来降低其影响。采用图像熵作为度量对不同类型的图像进行自适应降噪。因此,在不考虑任何攻击的先验知识的情况下,通过将给定样本的分类结果与其去噪版本的分类结果进行比较,可以有效地检测出对抗例子。

(2)Detecting Adversarial Examples from Sensitivity Inconsistency of Spatial-Transform Domain Authors

深度神经网络(dnn)已经被证明在对抗实例(AEs)时是脆弱的,这些实例被恶意设计以导致显著的模型输出错误。在这项工作中,我们揭示了普通的例子(NEs)是不敏感的波动发生在决策边界的高弯曲区域,而典型的AEs设计在一个单一的领域(大部分空间领域)表现出过高的灵敏度对这种波动。这一现象促使我们设计另一个具有转换决策边界的分类器(称为双分类器),该分类器可以与原分类器(称为原始分类器)协同使用,利用灵敏度不一致来检测AEs。与基于局部内在维数(LID)、马氏距离(MD)和特征压缩(FS)的灵敏度不一致检测器(SID)相比,我们提出的灵敏度不一致检测器(SID)实现了更好的声发射检测性能和优越的泛化能力。特别是在对抗性扰动水平很小的具有挑战性的情况下。在ResNet和VGG上的实验结果验证了该方法的优越性。

(3)Detecting Localized Adversarial Examples: A Generic Approach using Critical Region Analysis

深度神经网络(DNNs)已经得到了广泛的应用。,人脸识别及图像分类;然而,它们很容易受到对抗性例子的影响。通过添加少量难以察觉的扰动,攻击者可以很容易地操纵DNN的输出。特别是,局部对抗实例只干扰目标对象的一个小而连续的区域,因此它们在数字和物理世界中都是健壮和有效的。虽然局部对抗的例子比传统的像素攻击具有更严重的现实影响,但它们尚未在文献中得到很好的解决。在本文中,我们提出了一种通用的防御系统,称为TaintRadar,通过分析被攻击者操纵的关键区域来准确地检测局部的对抗实例。其主要思想是,当从输入图像中删除关键区域时,敌对标签的排名变化将大于良性标签的排名变化。与现有的防御解决方案相比,TaintRadar可以有效地捕获复杂的局部攻击,例如眼镜攻击,而不需要额外的训练或对原始模型的结构进行微调。在数字世界和物理世界进行了全面的实验,验证了我们的防御的有效性和鲁棒性。

(4)Imperceptible Adversarial Examples for Fake Image Detection

用Deepfake或GANs生成的高度逼真的假图像欺骗人们,给我们的社会带来了极大的社会扰动。已经提出了许多方法来检测假图像,但它们很容易受到敌对干扰——有意设计的噪声可能导致错误的预测。现有的攻击伪图像检测器的方法通常会产生对抗性的扰动来干扰几乎整个图像。这是多余的,增加了扰动的可感知性。在本文中,我们提出了一种新的方法来破坏假图像检测,通过确定一个假图像检测器的关键像素,只攻击关键像素,这导致对抗摄动的L0和L2规范比现有的工作大大减少。在两个公共数据集上的实验表明,我们的方法在白盒攻击和黑盒攻击中都取得了最先进的性能。

2020

(5)Adversarial examples detection through the sensitivity in space mappings

(6)ML-LOO: Detecting Adversarial Examples with Feature Attribution.

深度神经网络在一系列任务上获得了最先进的性能。但是,在输入中添加一个小的敌对扰动很容易欺骗它们。对图像数据的扰动通常是人类难以察觉的。我们观察到,对立设计的例子和原始例子在特征归因方面存在显著差异。基于这一观察,我们引入了一个新的框架来检测对抗的例子,通过阈值的规模估计特征归因分数。此外,我们扩展了我们的方法,包括多层特征属性,以解决具有混合置信水平的攻击。正如在大量实验中所证明的那样,与最新的检测方法相比,我们的方法在各种真实数据集上在区分对抗实例和流行攻击方法方面取得了优越的性能。特别地,我们的方法能够检测出混合置信水平的对抗例子,以及不同攻击方法之间的转移。我们还证明了我们的方法即使在攻击者完全访问检测器的情况下也能达到竞争性能。

(7)Detection of Adversarial Examples Based on Sensitivities to Noise Removal Filter

恶意噪声的注入给机器学习系统带来了严重的问题。由于系统的不确定性,噪声可能会将系统误导到恶意方确定的错误输出。这些创造出来的图像、视频、演讲被称为对抗性例子。欺骗图像分类器的研究已经被报道为对基于cnn的系统的潜在威胁。噪声是精心设计的,因此图像中的存在是隐藏在人眼和基于计算机的分类器。本文提出了一种利用图像分类器的灵敏度检测对抗图像的新方法。由于对抗图像是通过添加噪声产生的,因此我们着重于不同过滤后的图像分类器的输出行为。我们的想法是通过改变去噪滤波操作的强度来观察输出,这被称为操作导向特性。随着强度的增加,图像分类器中softmax函数的输出在对抗图像中发生了很大的变化,而在正常图像中则相当稳定。我们研究了一些噪声去除操作的面向操作的特征,并提出了一种对抗图像的简单检测器。通过实验对几种典型攻击进行了定量评价。

(8)Towards robust classification detection for adversarial examples

在计算机视觉领域,机器学习(ML)模型被广泛应用于各种任务中,以获得更好的性能。然而,ML模型在识别恶意输入(如敌对的例子)方面做得很差。滥用对抗性示例可能会在基于ml的产品或应用程序中造成安全威胁。根据对抗式实例的定义,对抗式实例与一般实例的特征分布是不同的。此外,对抗性样本的分类结果对加性扰动敏感,而普通样本的分类结果具有鲁棒性。这为从其自身分布中检测对抗性例子提供了理论基础。本文总结了几种对抗攻击和防御方法,提出了一种基于分类结果鲁棒性的检测方法。该检测方法在基于梯度的对抗攻击方法上具有较好的性能,且不依赖于ML模型的结构或其他信息,因此无需对ML模型的结构进行修改,在实际工程中具有一定的意义

(9)_When Explainability Meets Adversarial Learning: Detecting Adversarial Examples using SHAP Signatures

最先进的深度神经网络(DNNs)在解决许多复杂的现实问题方面非常有效。然而,这些模型很容易受到对抗性扰动攻击,尽管该领域的研究过多,直到今天,对手仍然在对抗示例生成方法与检测和预防方法的猫鼠游戏中占上风。在本研究中,我们提出了一种新的检测方法,利用计算DNN分类器内部层的Shapley加性解释(Shapley Additive interpretation, SHAP)值来区分正常和对抗输入。我们评估我们的方法,通过在流行的CIFAR-10和MNIST数据集上建立一个广泛的对抗示例数据集,并训练一个基于神经网络的检测器来区分正常和对抗输入。我们针对各种先进攻击生成的对抗例子评估了我们的检测器,并展示了它对不同攻击方法生成的对抗输入的高检测精度和很强的泛化能力。

(10)Detection of Adversarial Examples in Deep Neural Networks with Natural Scene Statistics

最近的研究表明,深度神经网络(DNNs)很容易受到添加到合法输入图像上的精心设计的扰动的影响。这种扰动图像被称为对抗性样本(AEs),可导致dnn错误分类。因此,发展AEs的检测方法是至关重要的,从而允许拒收它们。在本文中,我们提出使用自然场景统计(NSS)来表征AEs。我们证明这些统计特性是改变的存在对抗性扰动。基于这一发现,我们提出了三种不同的方法,利用这些场景统计来确定输入是否是敌对的。提出的检测方法已针对四种突出的对抗性攻击和三个标准数据集进行了评估。实验结果表明,所提出的方法具有较高的检测精度和较低的误报率。

(11)Fast Local Attack: Generating Local Adversarial Examples for Object Detectors

深度神经网络在对抗的例子面前是脆弱的。向图像添加难以察觉的敌对扰动就足以使它们失败。现有的研究大多集中在攻击图像分类器或基于锚点的目标检测器上,但它们会对整个图像产生全局扰动,这是不必要的。在我们的工作中,我们利用更高层次的语义信息来为无锚对象检测器生成高侵略性的局部扰动。该算法计算量小,可实现较高的黑盒攻击和传输攻击性能。该方法生成的对抗实例不仅能够攻击无锚对象检测器,而且能够转移到攻击基于锚对象检测器

(12重基于隐写)Adversarial Examples Detection Using Random Projections of Residuals

对抗图像使深度神经网络对原始标签进行错误分类,从而欺骗后续的人工智能系统。对抗图像的突发事件引起了研究人员对机器学习安全性的关注。在本文中,我们采用一种基于隐写分析的方法来检测BIM和DEEPFOOL等典型攻击产生的对抗图像。与以往基于隐写分析的方法不同,我们将残差投影到随机邻域上,提取直方图作为特征。与基于隐写分析的方法计算截尾残差的共现为特征相比,该方法不截尾残差,避免了信息丢失。实验结果表明,与基于SPAM和SRM的方法相比,该方法对BIM和DEEPFOOL攻击具有更好的性能。

(13)Exploiting the Sensitivity of L2 Adversarial Examples to Erase-and-Restore

通过向输入图像添加精心设计的扰动,可以生成对抗示例(AEs),从而误导基于神经网络的图像分类器。Carlini和Wagner的L2对抗性扰动(CW)是最有效但难以检测的攻击之一。虽然已经提出了许多对抗AEs的对策,但自适应CW-L2 AEs的检测仍然是一个悬而未决的问题。我们发现,通过随机擦除L2 AE中的一些像素,然后用修复技术恢复它,AE在步骤之前和之后往往会有不同的分类结果,而良性样本没有这种症状。因此,我们提出了一种新的声发射检测技术,擦除和恢复(E&R),利用L2攻击的有趣的敏感性。在CIFAR-10和ImageNet两个常用的图像数据集上进行的实验表明,该方法能够检测98%以上的L2 AEs,并且对良性图像具有非常低的误报率。该检测技术具有较高的可移植性:使用CW-L2 AEs训练的检测系统可以准确地检测使用另一种L2攻击方法产生的AEs。更重要的是,我们的方法展示了对自适应L2攻击的强大弹性,填补了AE检测的关键空白。最后,我们通过可视化和定量来解释检测技术。

(14)Are L2 adversarial examples intrinsically different?

深度神经网络(DDN)在各种任务中取得了显著的成功,包括许多涉及安全的场景。然而,大量的工作已经证明了它对对手的脆弱性。我们通过理论分析阐明了本质上区分对抗性例子和正常输入的属性。也就是说,L2攻击生成的对抗性例子通常具有较大的输入敏感性,可以用来有效地识别它们。我们还发现,由L攻击产生的那些在像素域上的差异足以被经验检测到。为了验证我们的分析,我们提出了一个集成检测和恢复过程的\textbf{G}指导\textbf{C}互补\textbf{D}防御模块(\textbf{GCD})。与对抗性检测方法相比,我们的检测器对大多数攻击的检测AUC均超过0.98。当比较我们的引导整流器与常用的对抗训练方法和其他整流方法,我们的整流优于他们的一个大的幅度。我们在MNIST上实现了高达99%的分类准确率,在CIFAR-10上实现了89%的分类准确率,在ImageNet子集上实现了87%的分类准确率。此外,在白盒设置下,我们的整体防御模块显示了良好的鲁棒性。因此,我们确认,至少L2对抗性例子本质上是不同的,从正常输入的理论和经验。我们还阐明了如何设计具有这些特性的简单而有效的防御方法。

(15)Effective and Robust Detection of Adversarial Examples via Benford-Fourier Coefficients

众所周知,对抗的例子是对深度神经网络(DNNs)的严重威胁。在本研究中,我们研究了对抗性样本的检测,假设一个DNN模型的输出和内部响应均服从广义高斯分布(GGD),但参数不同(即形状因子、平均值和方差)。GGD是一个通用的分布家族,涵盖了许多流行的分布(例如,拉普拉斯分布、高斯分布或均匀分布)。它更可能近似于内部响应的内在分布而不是任何特定的分布。此外,由于形状因子对不同数据库的鲁棒性比其他两个参数更强,我们提出通过形状因子构造判别特征进行对抗检测,利用本福德-傅里叶系数(MBF)的大小,这可以很容易地使用响应估计。最后,利用MBF特征训练支持向量机作为对抗检测器。在图像分类方面的大量实验表明,与目前最先进的对抗检测方法相比,所提出的检测器在检测不同制作方法和不同来源的对抗实例时更加有效和鲁棒。

2019

(16)Integration of statistical detector and Gaussian noise injection detector for adversarial example detection in deep neural networks

近年来,深度神经网络(DNN)在许多任务中取得了巨大的成功。然而,研究人员发现DNN很容易受到恶意干扰输入的攻击。精心设计的对抗性扰动很容易混淆模型,而对人类感知没有影响。为了对抗对抗例子,我们提出了一个综合的对抗例子检测框架,包括统计检测器和高斯噪声注入检测器。统计检测器提取相减像素邻接矩阵(SPAM),并利用二阶马尔可夫转移概率矩阵对SPAM进行建模,从而突出隐藏在敌对输入中的统计异常。然后利用基于SPAM特征的集成分类器检测含有较大扰动的对抗性输入。高斯噪声注入检测器首先向输入输入一个加性高斯噪声,然后将原始输入和其高斯噪声注入对应物输入到目标网络中。通过比较两个输出的差值,利用检测器检测含有小扰动的对抗性输入:如果差值超过阈值,则该输入为对抗性输入;否则合法。两种检测器都能适应不同的对抗性扰动特征,因此所提出的检测框架能够检测多种类型的对抗性实例。在我们的工作中,我们测试了快速梯度符号法(FGSM,无目标)、随机快速梯度符号法(R-FGSM,无目标)、基本迭代法(BIM,无目标)、DeepFool法(无目标)、Carlini&Wagner法(CW_UT,无目标)和CW_T法(有目标)产生的六类对抗例子。综合实验结果表明,所提出的检测框架在ImageNet数据库上取得了良好的性能。

(17)Detecting Adversarial Examples for Deep Neural Networks via Layer Directed Discriminative Noise Injection

深度学习是一种适用于计算机视觉任务的强大的机器学习解决方案。深度学习最受批评的弱点是,它对通过故意在干净的输入中添加难以察觉的小扰动而获得的敌对图像的容忍度很差。这些消极因素会使分类者做出错误的决定。以前的防御技术主要集中于细化模型或输入转换。它们要么是通过小数据集实现的,要么是显示出有限的成功。此外,尽管芯片上的人工智能(AI)是嵌入式智能无处不在的路线图,但很少从硬件的角度来审视它们。本文提出了一种新的判别噪声注入策略,该策略能自适应地选择几个优势层,并逐步地对敌对输入和良性输入进行判别。这是通过向模型中各个层的权重注入不同数量的噪声来评估对抗图像和自然图像的标签变化率的差异而实现的。该方法在ImageNet数据集上进行了评估,采用了最先进的DNN架构的8位截断模型。结果显示,MobileNet的检出率高达88.00%,仅约5%的假阳性率。在基于深度学习的人工智能芯片上,对最实用的非侵入性普遍扰动攻击的检测率和假阳性率都大大提高了。

(18)Automated Detection System for Adversarial Examples with High-Frequency Noises Sieve

深度神经网络被应用于许多任务中,取得了令人鼓舞的结果,并经常达到人类水平的性能。然而,深度神经网络很容易受到被称为对抗性例子的精心设计的输入样本的攻击。特别是,神经网络往往会错误地对人类无法察觉的敌对例子进行分类。本文介绍了一种新的基于深度神经网络的对抗性实例自动检测系统。我们所提出的系统可以在不需要人工干预的情况下,以端到端的方式区分敌对样本和良性图像。我们利用了频域在对抗样本中的重要作用,提出了一种检测观察中恶意样本的方法。在两个标准基准数据集(MNIST和ImageNet)上进行评估时,我们的方法在许多设置下达到了99.7 100%的检测出率。

(基于隐写19 )Detection Based Defense Against Adversarial Examples From the Steganalysis Point of View.

博文中提到的方法

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值