Adversarial Attacks Defense Method Based on Multiple Filteringand Image Rotation论文分享(侵删)

原文链接:[Retracted] Adversarial Attacks Defense Method Based on Multiple Filtering and Image Rotation

author={Feng Li and Xuehui Du and Liu Zhang},
title={Adversarial Attacks Defense Method Based on Multiple Filtering and Image Rotation}

一、介绍

神经网络可以通过向图像添加少量人类非侵入性干扰来进行错误分类。深度神经网络用于图像分类任务的对抗性示例攻击方法分为四类:基于邻域搜索的攻击、基于梯度的攻击、基于优化的攻击和基于图像变换的攻击。本文提出使用多个双边滤波器结合图像旋转作为有效和高效的防御方法。

现有的大多数方法都存在以下问题:(1)模型增强方法受到训练代价高的限制(2)模型增强方法高度依赖于模型和攻击方法(3)大多数基于图像预处理的方法削弱了对抗性扰动,降低了模型对清晰图像的分类精度(4)滤波方法在防御对抗性攻击时的精度下降

本文贡献:(i)提出了一种两级滤波方法,以保持较好的图像质量。(ii)它建议使用预滤波来减少图像中的高频分量。其次是使用更大尺寸的滤波器,以进一步减少对抗性扰动分量。(iii)随机参数的使用增加了防御方法的不确定性和攻击的难度。(iv)它提出了在分类之前旋转滤波图像。(v)调整双边滤波器的参数,统计平均多分类概率。

实验结果表明,该方法对各种不经意攻击都有很好的防御效果,而对部分模型的分类精度影响较小.此外,该方法降低了自适应攻击下的对抗性示例的可移植性。

二、方法详细介绍

为了减少对抗扰动的影响,防御方法通过两级滤波和图像旋转将单图像分类重构为多图像分类。然后对多个相应的分类概率向量进行平均,并将最大概率的索引视为图像的真实类别标签。

防御方法包括四个部分:(1)对输入图像进行预滤波以去除高频分量。CNN的第一层通常需要一个小的卷积核,高频信号会极大地影响分类。此外,对抗扰动包含高频分量。因此,滤除高频分量可以有效地减少对抗性扰动的影响。

(2)使用更大的滤波器来进一步减少剩余的对抗扰动分量。由于对抗性扰动的高频分量在预滤波过程中已经减少,因此剩余的扰动具有相对小的颜色方差。对于剩余的扰动使用较大的滤波器将是更有效的。由于对抗性扰动的强度很小,滤波时采用较小的颜色方差可以有效地降低对抗性扰动,保持图像质量。这种滤波方法主要是减少图像暗区的色度条纹,对图像亮度影响不大。根据[29],人类视觉对色度的敏感度低于亮度,因此,可以通过滤波来保持图像的视觉质量。

(3)滤波后的图像在被模型分类之前被随机旋转。虽然经过滤波后对抗性扰动在很大程度上被削弱,但它并没有完全消失。旋转可以减少模型和对抗扰动之间的匹配[30,31]。

(4)利用不同的滤波器参数和旋转获得的每个类别的概率向量yi被统计平均。图4显示了当使用单一滤波时,图像分类概率对于不同的滤波器参数变化很大。当标准差(Std)较小时(Std < 50),对抗样本的类概率会发生显著变化,导致不稳定的分类结果。当Std较大(Std > 300)时,滤波会导致图像模糊,几乎所有清晰图像和对抗样本的真类概率接近于0,容易误分类。当Std为中等(50 < Std < 300)时,真类概率较高,适合分类。在此定义为高置信区间。然而,某些图像的真实类别的概率在该范围内波动。因此,通过在高置信区间内对来自不同标准差的结果进行平均,可以获得模型的更稳定的分类性能。

双边滤波器被定义为以下函数:

其中,input和size分别表示输入图像和滤波器大小。std 1和std 2分别表示颜色域和空间域的标准偏差。

防御算法包括以下三个步骤:第一步:首先,对输入图像进行预滤波,以减少图像中的高频分量,其中连续应用大小为3和5的双边滤波器,std 1-std 2 - 20。请注意,当仅使用滤波器大小为3的滤波器进行预滤波时,可以获得略高的分类精度,但它对噪声更敏感:

第二步:旋转较大核尺寸为19的滤波图像。然后,分类模型计算概率向量yi,其中i = 1,2,3,.,9、10如下:其中rbi和rci是随机参数

输入图像X滤波:

然后,将滤波后的图像调整1.1倍大小(以减少零填充的影响)并旋转(旋转中心是图像中的任何位置):

分类模型预测概率yi:

步骤3:获得步骤2中分类概率的统计平均值,以确定最终的分类标签

将图像的类别标签确定为C′:

实验:

数据库:所采用的数据集X由从ILSVRC 2012验证集中随机选择的1000个图像组成。对抗性攻击方式:使用I-FGSM [4],FGSM [3],Deep Fool [6],C&W [9]和EOT-PGD(嵌入EOT [25]的PGD [5]攻击)进行攻击,目标模型为AlexNet [32],VGG(Visual Geometry Group)[33],Inception [34]和ResNet(Residual Neural Network)[35]。在不经意攻击(实验1和2)中,仅利用目标模型和输入图像来使用指定的攻击方法生成对抗性示例。在自适应攻击(实验3)中,梯度计算的EOT方法,并与PGD攻击模型。在PyTorch和OpenCV环境下进行了对比实验。

对I-FGSM经典攻击的防御效果:使用I-FGSM进行攻击,并评估对对抗性示例攻击的防御效果。

防御其他不经意攻击的有效性。所采用的不经意攻击主要包括基于梯度和优化的强攻击。针对数据集X1(从数据集X中随机选择的200张图像)的FGSM,DeepFool和C&W攻击方法评估了所提出的防御方法的性能。

选择EOT-PGD作为自适应攻击,并使用随机化防御和建议的防御方法。由于采用随机参数的防御方法会产生随机梯度,因此经典的基于梯度的攻击方法不能使用随机梯度进行攻击。首先利用EOT方法得到梯度,然后利用PGD方法对攻击模型(AlexNet)生成对抗样本。该方法利用了对抗扰动的幅度明显小于原始图像信号的特点。对抗性扰动被视为噪声信号,并通过图像预滤波过程滤除。原始图像和对抗性扰动都被削弱,并且更大尺寸的滤波器进一步减小了对抗性扰动。随机旋转降低了模型的匹配度和对抗性扰动。最后,可以通过统计平均来获得图像类别的稳定预测。

总结:提出了一种基于滤波和图像旋转的对抗样本攻击的新方法。该方法从四个方面增强了双边滤波防御对抗性攻击的能力,并充分利用了双边滤波下模型的高置信区间。该算法能够有效地抵御不经意攻击,并有效地降低自适应攻击下对抗性样本的可移植性。实验结果证明,由于基于深度学习的图像分类模型中存在大量的高置信区间,因此所提出的防御方法具有很强的通用性。未来的工作将包括研究所提出的防御方法如何与其他图像理解相关任务协作,以使图像数据分析的深度学习方法更安全,更广泛地使用。

  • 20
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值