介绍
目前,以深度神经网络为基础人工智能技术被广泛用于许多安全关键领域,如自动驾驶、金融系统、人脸识别。然而,众多研究指出,深度神经网络容易受到对抗样本的威胁,恶意攻击者可以对图片添加一些人眼难以感知的扰动,从而改变模型输出,欺骗模型。
现有研究表明,由白盒代理模型生成的对抗样本也能迁移欺骗其他未知的黑盒模型。然而,它们仅在无目标迁移攻击上表现较为良好。即由于过度依赖于白盒模型,这些方法在有目标黑盒迁移性上表现欠佳。目前,一种效果较为有潜力的方法是生成式有目标攻击算法,即基于数据的分布训练一个扰动生成器来产生有目标对抗攻击的对抗扰动。
生成式有目标攻击算法可被分为 single-target 和 multi-target 攻击方式。Single-target 攻击是为每一个攻击目标类别训练一个扰动生成器的算法,展现出相对出色的性能。然而,当面对攻击许多类别的场景,特别是包含上千类别的真实分类系统时,这些方法需要为每一个目标类别训练一个生成器,产生了巨大的计算负担。
因此,为多个目标类只训练一个带限制的生成器(conditional generator)的 Multi-target 攻击算法被提出。通过指定攻击目标类别作为限制输入,生成器可生成任意指定类别的扰动。然而,目前的算法只能借助代理模型的分类边界作为目标类别的指导,仅取得了有限的攻击效果。
本文提出了 CGNC,一种新设计的扰动生成器网络。它将多模态模型 CLIP 对目标类别的文本表征融入生成器网络中,协助生成器学习目标类分布,从而提升攻击迁移性,同时,引入了一种掩码微调机制,使之适应于单目标类攻击场景,提高了性能。
论文标题:
CLIP-Guided Generative Networks for Transferable Targeted Adversarial Attacks
作者单位:
清华大学、哈尔滨工业大学(深圳)
论文链接:
https://arxiv.org/abs/2407.10179
Github链接:
https://github.com/ffhibnese/CGNC_Targeted_Adversarial_Attacks
CLIP指导的有目标迁移生成网络
攻击目标概述
给定白盒代理模型 ,干净图片样本 ,以及攻击者指定的目标类别 ,攻击者希望生成不可见的扰动 ,来误导黑盒模型 ,即 。同时,通过确保 ,保证对抗噪声的隐蔽性。