CVPR 2022 | Glow模型助力黑盒对抗攻击

近日,清华大学,香港中文大学(深圳)等单位联合发表了一篇在对抗机器学习领域中黑盒攻击场景下的论文,已顺利被CVPR 2022接收。通过迁移一部分替代模型的条件对抗分布(CAD)的参数,同时根据对目标模型的查询学习剩下未迁移的参数,所提出的方法可以在任何新的正常样本上调整目标模型的 CAD以提高攻击性能。

89586fdf50126df791a9776a89ae58ba.png

论文标题: Boosting Black-Box Attack with Partially Transferred Conditional Adversarial Distribution

收录会议: CVPR 2022

论文链接: https://openaccess.thecvf.com/content/CVPR2022/papers/Feng_Boosting_Black-Box_Attack_With_Partially_Transferred_Conditional_Adversarial_Distribution_CVPR_2022_paper.pdf

代码链接: https://github.com/Kira0096/CGATTACK

1 问题背景

随着深度神经网络 (DNN)被广泛的应用于现实任务,其所带来的安全隐患也引起了业界和学界的重视,其中黑盒攻击无疑是最受关注的问题之一。黑盒攻击中,攻击者只能通过被攻击的 DNN 模型返回的查询反馈(query feedback)获取信息进而展开攻击,而模型参数和训练数据集等其他信息是未知的。然而,如果只利用查询反馈,在有限的查询预算下很难达到较高的攻击成功率。为了提高黑盒攻击性能(包括攻击成功率和查询效率),一种有效方法是利用一些白盒替代模型 (surrogate model) 和目标模型(即被攻击模型)之间的对抗迁移性。然而,由于替代模型和目标模型的模型架构和训练数据集之间可能存在差异(被称为 surrogate bias)。因此,如果盲目地全然采用替代模型的信息来代替目标模型,会对攻击产生负面影响(作者在文中用实验结果特别论证了如果surrogate biases过大,所带来的负面影响是确实存在的)。

为了解决这个问题,本论文通过开发一种对抗迁移性的新机制,提出了一种新的黑盒攻击方法。通过迁移一部分替代模型的条件对抗分布(CAD)的参数,同时根据对目标模型的查询学习剩下未迁移的参数,所提出的方法可以在任何新的正常样本上调整目标模型的 CAD。对基准数据集的广泛实验和对真实世界 API 的攻击证明了所提出方法的卓越攻击性能。

2 方法介绍

2.1 总体框架

下图是本工作整个攻击流程的示意图:

c256f502bfdf2ba5a3b0d064096e4884.png

首先,我们借助Score-based black-box attack中的Evolutionary Strategy作为攻击算法的基本思路。将替代模型上训练得到的对抗噪声分布的部分参数迁移到对目标模型的攻击流程中直接利用(如下图(b)中的绿色虚线箭头),而剩下一部分参数则是通过对目标模型进行查询后根据得到的反馈来进行更新(如下图(c)中的黄色箭头)。如此更新迭代,执行Evolutionary Strategy的攻击策略,最后达到攻击成功的目的。

2.2 攻击策略:Evolutionary Strategy

Evolutionary Strategy是一种黑盒攻击策略,属于Score-based black-box attack。总的来说,该策略可以概括为通过对某个已知分布进行若干次采样得到对抗噪声以施加在被攻击的样本上,将此被施加对抗噪声的样本在目标模型上进行查询后根据反馈信息来更新该分布的参数,通过不断的迭代优化,达到最终攻击成功的目的。

最简单的分布可以采用高斯分布,后续也有很多工作采用了其他分布来实现更有效的攻击算法。在本工作中,我们采用了CAD (conditional adversarial distribution)作为采样噪声的分布。CAD可以刻画出在高维的样本空间内,选定某个样本点后,对抗噪声的概率分布,以此可以进行采样。为了得到这样的分布,我们采用了Glow模型的框架。

2.3 Glow模型

Glow模型是建立在标准化流(Normalizing Flow)的基础上的,标准化流可以理解成是一系列可逆函数的复合,能够将简单分布(如高斯分布)变换成复杂分布(如上文提到的CAD),且该变换是完全可逆的。

若用 代表对抗噪声, 代表高斯噪声,则通过标准化流的变换(用下式表示)和Glow模型的学习和训练,高斯噪声可以变换成对抗噪声,进而得到所需的CAD。

1948423695b5dac828775587aff4041d.png

其中为网络输入, 为层c-Glow模型的参数, 和 为超参,具体的变换操作可以参考原论文中的细节,在此不一一赘述。

值得注意的是,作者没有直接对对抗噪声进行建模,即 , 而是引入样本 建模成 的条件分布 。这样能够更充分地利用样本数据的信息,能够对攻击带来帮助。

根据Glow模型和标准化流的设定,由此可以得到log-liklihood函数。

e8ea6ae1885e9c5dda8a71cf690ef137.png

这样就将CAD作为Evolutionary Strategy中的分布,进行后续的攻击流程。

922a221dfd1c0f2914a6662a2ff7b106.png

2.4 目标模型的CAD

如何通过训练得到目标模型的CAD从而实现攻击呢?本文做出了一个假设:一个模型生成的对抗噪声对另一个模型可能也有对抗性,从而假设不同模型的对抗噪声分布是相似的。本论文通过大量实验验证了这个假设。基于这个假设,我们可以在替代模型上训练CAD,再将训练得到的CAD迁移到目标模型上,执行Evolutionary Strategy的攻击。于是,现在需要解决的问题是如何在替代模型上训练得到CAD。

Glow模型是通过maximum log-liklihood (MLL)的方式学习参数的,但在黑盒攻击的场景里,MLL的方法似乎并不可行。原因在于MLL需要大量的样本作为训练数据,而在现实场景下,所需的训练数据对应的是对抗噪声。一般来说,即使是对替代模型进行攻击而得到所需的对抗噪声,其成本也是较为高昂的。因此,短时间内获得大量的对抗噪声作为MLL的训练数据是不现实的。于是,我们考虑以缩小两个分布之间的KL散度为目标,用Energy-based model计算得出的分布,去近似Glow模型的分布。在用Energy-based model计算分布时,所需要的计算样本完全可以是一般的噪声,这样便大大降低了训练成本。

因此,我们在替代模型上定义了一种Energy-based Model

ba53ad65a259493de172cc68a86bbcdb.png

做近似处理后得到下式:

d127fdfc21d6e08a2d9ffea916b605c7.png

其中 表示对抗损失函数,具体定义可以参见原文。

基于上述模型,我们采取下列流程在替代模型上训练得到CAD:1. 在样本邻域内随机抽取大量的噪声(任何噪声都可以,并不一定是对抗噪声);2. 对样本施加噪声后传入替代模型进行查询,得到反馈和对抗损失函数,并计算得到 ;3. 最小化 和 之间的KL Divergence。

上述的流程可以用下图来概括:

53dedb956ce04a9d2d7269bb6ab25d3c.png

通过这样的训练过程可以在替代模型上得到参数。

2.5 CG-Attack

在替代模型上训练得到的即是在前文提到的需要学习的CAD,在后续以Evolutionary Strategy为基本攻击策略所设计的攻击算法中,将作为search distribution来采样噪声。

根据前文提到的,作者提出了一个假设并用大量的实验验证了该假设是正确的:一个模型生成的对抗噪声对另一个模型可能也有对抗性,从而假设不同模型的对抗噪声分布是相似的。目前已经有了替代模型上的CAD,则根据假设,可直接将替代模型上的CAD迁移到目标模型上作为目标模型的CAD。

需要注意的是,本文在此处并不是将替代模型的CAD全部迁移到目标模型上,而是仅仅迁移部分参数,而剩余的参数将在攻击过程中不断更新,具体流程如下图所示

b94fa3138eb1094df97010a2e90f4a6c.png

可以看到,在CG-Attack攻击中,被迁移的参数只有, 而剩余的参数则是在攻击过程中根据查询的反馈结果进行更新。

3 实验结果

下图展示了CG-Attack的主要实验结果。可以看出,CG-Attack的攻击效果是较为显著的,在untargeted场景下,甚至只需查询1次即可攻击成功。除此之外,CG-attack在ImageNet和 GoogleAPI等开放场景下的攻击表现也是非常显著的。更多结果可以参见论文中的实验结果和分析。

ef59fada5601572ff3c302dc7db0f757.png 001523b9559317bc83acbd1c941f715a.png

4 总结

这篇文章的主要思路是采用score-based attack中常见的Evolutionary Strategy来设计攻击算法,其创新亮点在于借助Glow模型和一种新颖的部分参数迁移机制训练出 Evolutionary Strategy 所需的search distribution(本文对应Conditional Adversarial Distribution, i.e CAD)来实现攻击算法。最后的实验结果表明,该方法的攻击效果显著,能够适用于较为广泛的场景。

49c56a4b12112da7c207813ec0ede379.jpeg

END

欢迎加入「对抗攻击交流群👇备注:Ad

660db8c0e147ee1c9cdafec9ed380bc2.png

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值