【对抗样本】Downstream-agnostic Adversarial Examples

原文标题: Downstream-agnostic Adversarial Examples
原文代码: https://github. com/CGCL-codes/AdvEncoder
发布年度: 2023
发布期刊: ICCV


摘要

Self-supervised learning usually uses a large amount of unlabeled data to pre-train an encoder which can be used as a general-purpose feature extractor, such that downstream users only need to perform fine-tuning operations to enjoy the benefit of “large model”. Despite this promising prospect, the security of pre-trained encoder has not been thoroughly investigated yet, especially when the pre-trained encoder is publicly available for commercial use. In this paper, we propose AdvEncoder, the first framework for generating downstream-agnostic universal adversarial examples based on the pre-trained encoder. AdvEncoder aims to construct a universal adversarial perturbation or patch for a set of natural images that can fool all the downstream tasks inheriting the victim pre-trained encoder. Unlike traditional adversarial example works, the pre-trained encoder only outputs feature vectors rather than classification labels. Therefore, we first exploit the high frequency component information of the image to guide the generation of adversarial examples. Then we design a generative attack framework to construct adversarial perturbations/patches by learning the distribution of the attack surrogate dataset to improve their attack success rates and transferability. Our results show that an attacker can successfully attack downstream tasks without knowing either the pre-training dataset or the downstream dataset. We also tailor four defenses for pre-trained encoders, the results of which further prove the attack ability of AdvEncoder.


背景

自监督学习 (SSL) 是一种新兴的机器学习范式,旨在克服标记数据的限制。它通常使用大量未标记的数据来预训练通用编码器,该编码器可以用作各种下游任务的特征提取器,但同时预训练的编码器对于攻击也是脆弱的。

然而,现有文献中对预训练编码器的安全性的考虑没有涉及对抗样本的问题。 针对预训练编码器构建对抗性示例与其传统攻击路线有很大不同,因为攻击者不了解下游任务。换句话说,攻击者需要在不知道其任务类型、预训练数据集和下游数据集的情况下攻击 DNN,即使整个模型将进行微调。

创新点

在这项工作中,我们研究的是对训练编码器的对抗性样本。我们考虑对抗性扰动和补丁。前者具有高度的不可察觉性,而后者是可见的,但仅限于图像的一个小区域,更容易应用于物理世界。此外,在不了解下游数据的情况下,我们的目标是实现通用对抗性攻击 ,其中一种对抗性扰动或补丁适用于一组自然图像,并可能导致模型错误分类。

具体来说,我们提出了 AdvEncoder,这是一种新颖的攻击框架,用于生成与下游无关的通用对抗示例。最具挑战性的工作在于解决缺乏监督信号和有关下游任务的信息的问题。受深度神经网络偏向于图像纹理特征的启发,纹理信息的变化,即图像的高频分量(HFC)极有可能引起模型决策的变化。我们首先利用高频分量滤波器来获得良性和对抗性样本的HFC,并尽可能地拉出它们的欧几里得距离来影响模型的决策。然后,我们设计了一个生成攻击框架,通过学习数据的分布,以固定的随机噪声作为输入,构建具有高攻击成功率和可迁移性的对抗性扰动或补丁。

模型

  1. threat model

假设攻击者可以访问预训练编码器,但对预训练数据集和下游任务一无所知。攻击者的目标是进行非针对性的对抗性攻击,以禁用下游任务或损害其准确性。具体来说,攻击者使用预先训练的编码器来设计一个下游不可知的通用对抗性扰动或补丁,该扰动或补丁适用于来自不同数据集的各种输入图像。然后,对抗性示例可能会误导所有继承受害者预训练编码器的下游分类器。我们还假设下游任务使用者(以下称为用户)能够针对其原因微调线性层或预训练编码器,并且模型提供者可以采用对抗训练等常见防御措施来净化编码器。

  1. 问题定义

给定一个输入 x ∈ Dp 给一个预训练编码器 gθ(·),该编码器返回一个特征向量 v ∈ V。攻击者使用攻击者的代理数据集 Da(与预训练数据集 Dp 和下游数据集 Dd 无关)来生成针对预训练编码器的通用对抗性噪声。此外,通用对抗噪声δ应该足够小,并通过 lp 范数的上限ε进行建模。这个问题可以表现为:
在这里插入图片描述
对于下游分类器也有类似的分类错误:
在这里插入图片描述
3. 背后的动机

预训练编码器为相似图像输出相似的特征向量,这些图像在特征空间中靠得很近,与其他类别的图像相距甚远。下游任务会根据这些特征向量输出决策,因此攻击者需要尽可能地将对抗样本推离其在特征空间中的初始位置。

  • 挑战一:预训练编码器中缺乏监督信号。

当攻击者将图像馈送到预训练的编码器时,它只获取相应的特征向量,而不是标签。在监督学习中,使用对抗样本的传统方法有效地攻击预训练编码器是不可行的。因此,一个直观的想法是向样本添加一个较大的预算扰动,使预先训练的编码器对其进行错误分类。然而,通过实验发现大的预算扰动不一定能实现上述目标,而可能只是同一类内部的内部运动,而不是偏离该类的方向。
最近的研究表明,具有高频特性的表面统计内容对于DNN是必不可少的,对抗性扰动也具有这种特性。因此,我们建议使用通用对抗噪声来改变图像的高频分量,即纹理信息,以影响预训练编码器的输出。它在监督学习中起到了标签引导的作用,从直接改变图像本身语义的角度出发,更容易将目标样本推出原始决策边界。

挑战二:缺乏下游任务的信息。

在预训练编码器到下游任务范例中,微调会影响模型的原始特征边界,上述方法只是愚弄预训练编码器,几乎无法影响下游任务决策。因此,我们希望通过小扰动范围下的通用对抗噪声使对抗样本与原始类别足够远。因此,下游分类器将基于特征向量的明显相似性而被误导。鉴于生成网络在生成固定模式特征方面的卓越能力,我们进一步设计了生成攻击框架来提高通用对抗噪声的泛化能力。如图2(d)所示,所有目标样本将在特征空间中聚集在一起并远离所有正常样本,使得下游任务难以正确分类目标样本。

4.具体模型
AdvEncoder 的流程如图 3 所示。它由对抗生成器 G、高频滤波器 H 和受害者编码器 E 组成。具体来说,我们设计了一个基于频率的生成攻击框架来生成通用对抗噪声。通过将固定噪声 z 输入对抗生成器,我们获得通用对抗噪声并将其粘贴到攻击者代理数据集 Da 的目标图像上,以获得对抗示例 xadv。
在这里插入图片描述
损失函数:
在这里插入图片描述

  • 对抗性损失函数 L a d v L_{adv} Ladv
    通过最大化编码器输出的正常样本和对抗样本之间的特征向量距离来增强通用对抗噪声的攻击强度。我们采用InfoNCE损失来衡量预训练编码器g(·)的输出特征向量之间的相似度。具体来说,我们将良性样本 xi ∈ Da 和对抗性样本 xadv i 视为负对,拉开它们的特征距离。因此Ladv可表示为:
    在这里插入图片描述
  • 高频分量损失函数 L h f c L_{hfc} Lhfc
    由于缺乏标签信息的指导,仅通过添加噪声来推开输出嵌入在特征空间中的位置需要大量的扰动预算。 Lhfc通过修改高频成分来改变图像原有的语义特征,进一步分离出目标样本的位置。我们可以通过高频分量滤波器H获得图像的HFC。高频分量损失Lhfc可以形式化为:
    在这里插入图片描述

  • 质量损失函数Lq
    为了实现更好的隐身性,我们在每次优化后使用 Lq 来控制生成器和裁剪 δ 输出的对抗性噪声的大小,以确保其满足约束 ε 。
    在这里插入图片描述

实验

1.设置:选择14个自监督模型。攻击者的代理数据集要CIFAR10为默认设置。下游任务选取了4个图像数据集。使用攻击成功率作为评估指标。两个任务:图像分类喝图像检索。我们选择图像的右下角(不容易看到)来应用补丁。我们设置超参数 α = 1, β = 5, λ = 1。
2. 实验结果
两个攻击设置表现良好。Adv-PAT在不同设置下具有始终如一的高攻击性能,平均ASR超过90%。 其次,攻击者的代理数据集对攻击性能有影响,例如ImageNet代理数据集优于CIFAR10。当攻击者的代理数据集与预训练数据集和下游数据集相似时,AdvEncoder 的性能更好。

  • 16
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值