[物理对抗攻击]Adversarial Attack with Raindrops

原文标题: Adversarial Attack with Raindrops
原文代码: 暂无
发布年度: 2023
发布期刊: CVPR


摘要

Deep neural networks (DNNs) are known to be vulnerable to adversarial examples, which are usually designed artificially to fool DNNs, but rarely exist in real-world scenarios. In this paper, we study the adversarial examples caused by raindrops, to demonstrate that there exist plenty of natural phenomena being able to work as adversarial attackers to DNNs. Moreover, we present a new approach to generate adversarial raindrops, denoted as AdvRD, using the generative adversarial network (GAN) technique to simulate natural raindrops. The images crafted by our AdvRD look very similar to the real-world raindrop images, statistically close to the distribution of true raindrop images, and more importantly, can perform strong adversarial attack to the state-of-the-art DNN models. On the other side, we show that the adversarial training using our AdvRD images can significantly improve the robustness of DNNs to the real-world raindrop attacks. Extensive experiments are carried out to demonstrate that the images crafted by AdvRD are visually and statistically close to the natural raindrop images, can work as strong attackers to DNN models, and also help improve the robustness of DNNs to raindrop attacks.


背景

现有的对抗性攻击可以分为两类:1)数字攻击,其中对抗性扰动是在数字域中精心设计的,例如传统的基于梯度的对抗性攻击。 2)物理攻击,对真实存在的物体进行扰动,以实现攻击目标。由于数字制作的对抗样本在现实环境中很少存在,因此物理攻击最近引起了越来越多的关注。物理攻击采用的一种流行策略是在目标对象上添加一些精心设计的伪影。然而,这些攻击通常会产生不自然的纹理,这些纹理对于人眼来说是非常明显的。因此,许多工作专注于生成具有人眼看来合法的自然风格的对抗性示例。然而,这些视觉上有效的对抗性例子仍然是人工制品,很少出现在现实世界环境中。
近年来,一些研究人员提出利用降雨和雾霾等自然现象来产生更自然的对抗性攻击。尽管它们表现出强大的攻击能力,但它们并不是真正的雨或霾,而且通常看起来不自然,要么是因为用于模拟天气现象的模型不复杂,要么是因为过于关注对抗性例子的攻击强度,而它们的现实性被忽略了。

创新点

在本文中,我们研究了由雨滴引起的对抗性示例,以表明存在许多自然现象(例如雨滴)能够充当 DNN 的对抗性攻击者。因此,对于自动驾驶等类型的应用来说,找到一种有效的方法来防御这些自然对抗性攻击至关重要。为此,我们提出了一种方案,表示为 AdvAD,基于 GAN 技术生成对抗性雨滴图像。具体来说,AdvAD 在现实世界的雨滴数据集上训练生成对抗网络(GAN),直到它可以将干净的输入图像转换为自然的雨滴风格图像,同时,将迁移学习分类器嵌入到 GAN 框架中赋予生成的雨滴图像更强的对抗性攻击能力。我们的方案生成的对抗性雨滴图像与自然雨滴图像非常相似,不仅从人类的角度来看,而且从两个分布的统计测量来看。最后,我们表明对抗性雨滴图像有助于提高 DNN 模型对自然对抗性雨滴攻击的鲁棒性。进行了大量的实验来证明我们方案的有效性。

模型

现实世界的对抗性雨滴
为了调查现实世界的雨滴图像误导预先训练的 DNN 模型的频率,我们获取雨滴图像,并统计估计雨滴图像误导训练有素的 DNN
分类器的可能性。我们随机在玻璃上喷洒一些小水滴,然后将其放在相机镜头前。干净的图像一一展现在电脑屏幕上。我们固定摄像头和屏幕的位置,随机移动和旋转玻璃,为每个图像收集
5 秒的视频。如果我们发现视频中至少有一帧误导了预先训练的 DNN 模型,我们称该帧为 DNN 模型的真实世界对抗性雨滴图像。

在这里插入图片描述

  1. 制作电子雨滴图像
    这些含雨滴图像在实践中很难收集。因此,我们提出了一种新方法 AdvRD,基于准 GAN 框架生成对抗性雨滴图像,该框架包含三个子网络:生成器、鉴别器和传输分类器。与传统的 GAN 不同,我们的 GAN 架构中的生成器 G 试图生成尽可能真实的雨滴图像,旨在不仅欺骗判别器,还欺骗转移分类器。鉴别器 D 尝试识别输入图像是真实的雨滴图像还是来自生成器。采用转移分类器C使生成的雨滴图像具有对抗性攻击能力。我们的生成对抗性损失可以表述为:
    在这里插入图片描述
  • 生成任务

生成器的第一个目标是生成真实的雨滴图像来欺骗鉴别器。为了模拟自然雨滴,生成器应考虑雨滴生成过程中的背景场景。我们应用多个卷积层来提取干净图像的浅层特征,并将其与从噪声向量z计算出的中间特征融合,以获得最终的雨滴。这个过程可以表述如下:
在这里插入图片描述
其中o’代表合成雨滴图像,E代表编码器。它将雨滴图像转换为特征,即潜在变量 z 的均值和方差。

我们使用有雨滴和没有雨滴的图像对 { o n , b n } n = 1 N \{on, bn\}^N_{n=1} {on,bn}n=1N 来训练生成网络。生成器第一个目标的生成损失 LG 表示为:
在这里插入图片描述
(1)Lgen:训练生成器输出可以欺骗鉴别器的雨滴图像。该损失的计算公式为:
在这里插入图片描述
(2) Lz:约束E编码器的潜变量z服从各向同性高斯分布,计算公式为:
在这里插入图片描述
(3)LP:使生成的雨滴更加真实。受到雨滴仅影响图像的部分像素的观察的启发,因此我们选择 L1 范数来鼓励生成器进行稀疏扰动:
在这里插入图片描述

  • 判别任务

判别器 D 尝试识别输入图像是否来自真实数据分布而不是 G。因此判别器的损失定义为:
在这里插入图片描述
为了平衡 GAN 的性能和效率,我们只使用一个全局判别器,其结构主要基于 AlexNet 完全可以满足我们的需求。

  • 转移分类器

生成器的第二个目标是赋予生成的雨滴图像更强的对抗性攻击能力,因为根据我们的观察,只有前一个生成器 G 制作的只有少量雨滴图像可以成功误导目标 DNN 模型。因此,在我们的 GAN 架构中,在传统的 GAN 框架中添加了一个迁移学习网络 C(称为迁移分类器),旨在将生成的雨滴图像转换为对抗性示例。下面是我们在训练中使用的损失函数:
在这里插入图片描述
2. 对抗扰动的基本目标及梯度攻击
在这里插入图片描述
在这里插入图片描述

实验

  • 数据集。
    在雨滴去除(RDR)数据集上训练我们的准 GAN 架构。所有其他实验均在三个数据集 NIPS-17 和两个交通标志识别数据集 Tsinghua-Tencent 100K (TT-100K) 和 GTSRB上进行。
  • 真实性

使用 RDR 数据集中的干净图像,我们生成对抗性雨滴图像,其看起来与对应的真实世界雨滴图像相似。此外,我们采用统计指标 FID来测量我们的对抗性雨滴和现实世界雨滴之间的分布相似性。基本上,FID 度量被提出来测量两个高斯分布 g1 和 g2 的差异,
为了估计对抗性雨滴和真实雨滴的 FID 值,我们将 RDR 数据集随机分为两个不相交的子集 r1 和 r2,大小大致相同,然后使用我们的 AdvRD 算法生成一组对抗性雨滴图像,表示为作为 f 1,来自 r1 中的干净图像。每次随机采样都会计算 FID(Pr1,Pr2) 和 FID(Pf1,Pr2) 的值,RFID是FID(Pf1,Pr2)和FID(Pr1,Pr2)的比率。从表1看出,RFID的值非常接近1,表明对抗性雨滴和现实雨滴之间的分布差异与现实雨滴之间的分布差异几乎相同。因此,我们可以说 AdvRD 生成的雨滴几乎与现实雨滴具有相同的分布。

  • 攻击效果

表2表3中可以看到:1)在白盒场景中,AdvRD雨滴的攻击能力在ASR方面比基于梯度的方法制作的对抗样本(FGSM除外)弱; 2)在黑盒场景中,AdvRD 在大多数情况下都以 ASR 的优势优于其他基于梯度的方法。即使对于通过对抗训练预先训练的三个鲁棒目标模型,我们的 AdvRD 雨滴仍然实现了超过 50% 的 ASR,明显高于基于梯度的方法。这可能意味着传统的基于梯度的对抗训练在防御对抗性雨滴方面不起作用。

  • 对抗性防御效果
    具体来说,在对抗训练的每个时期,我们随机选择一半训练数据来生成 AdvRD 雨滴图像,并将它们与另一半干净数据相结合来训练模型。标签。图5给出了实验结果,上半部分是标准训练,下半部分是对抗训练。
    表5可以看出,使用我们的 AdvRD 雨滴进行对抗训练显着降低了数字和物理雨滴攻击的 ASR 值。与传统的对抗训练一样,我们在实验中的对抗训练也降低了 NIPS-17 对干净图像的识别精度。但令人惊讶的是,它甚至提高了数据集 TT-100K 和 GTSRB 的干净样本的识别准确性。

  • 扰动效果
    图 6 分别显示了 DNN 模型对干净图像、AdvRD 制作的雨滴图像和物理对抗性雨滴图像的 CAM 注意力。我们看到,虽然雨滴只会扰乱稀疏像素,但注意力图却受到了很大的干扰。值得注意的是,雨滴扰动图像中的物体视觉上完整且清晰,这意味着图像退化可能不是错误分类的主要原因。雨滴会扰乱 CAM 注意力图。更多真实世界的对抗性雨滴及其 CAM 包含在补充材料中。

  • 消融

参数 η:是平衡对抗强度和合成雨滴现实之间的权衡。用较大的 η 训练的生成器往往更容易欺骗目标分类器。然而,太大的 η 可能会使生成器专注于欺骗分类器而不是生成真实的雨滴图像。我们通过将 η 设置为 2 到 10,步长为 2 来测试其效果。七个目标模型的 ASR 曲线如图 7 所示。图6给出了不同η对应的RFID值。从图7中可以看出,使用较大的η进行微调的生成器获得了较高的ASR值,这表明增加η可以提高AdvRD的攻击能力。另一方面,从表6可以看出,较大的η导致RFID的值较高,这意味着现实的牺牲。

噪声采样数N:增加N会提高攻击强度,但会降低攻击效率,因为攻击者会更多次查询目标模型来搜索对抗性示例。我们将N设置为15到35,步长为5,以测试噪声采样数的影响。完成攻击NIPS-17的ASR值和运行时间如表2所示。 7. 我们可以观察到攻击强度和运行时间都与 N 正相关。所以在实际中,我们设置N=25来平衡攻击强度和效率。

  • 10
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值