【论文笔记】Simulating Unknown Target Models for Query-Efficient Black-box Attacks

入选CVPR2021,一篇有原作者讲解的文章~非常详细,所以这里就记录一些自己曾经迷惑的点 链接任何网络都能山寨!新型黑盒对抗攻击模拟未知网络进行攻击

Contribution

1.通过训练一个名为“模拟器”的广义替代模型,提出了一种新的黑盒攻击。训练使用知识提取损失在模拟器和采样网络之间进行元学习。训练后,模拟器只需要几个查询就可以准确地模拟训练中看不到的任何目标模型。

2.在训练中消除目标模型后,我们发现了一种新的安全威胁:拥有关于目标模型的最少信息也可以伪造该模型,以实现高效的查询攻击。(这条是凑数的嘛。。。)

3.通过使用CIFAR-10、CIFAR-100和TinyImageNet数据集进行广泛的实验,我们证明了所提出的方法与最先进的攻击具有相似的成功率,但查询数量空前少。

Method

Task Generation and Simulator Learning

看了两遍才明白过来,仅训练模型就包含了两部分。。第一部分生成训练模型所需的数据,第二步才是训练模型。。。

先贴一下算法框图,看这个图我算是看明白了!在这里插入图片描述
就着图解释一下一些疑惑点:

作者所说内部更新应该是12行,外部更新应该是14行

第十行:该研究随机采样 K 个 task 组成一个 mini-batch 进行学习。在学习每个 task 之前,模拟器将其参数重新初始化为θ(在N的迭代中,由上一批更新得到的

Loss Function: 基于知识蒸馏的损失函数,给定一个 query pair Q_i的两个 query Q_i,1和Q_i,2(由于 Bandits 攻击使用有限差分法去估计梯度,因此每次迭代生成一个 query pair,由两部分组成)。模拟器和随机选择的分类网络的 logits 输出分别记为p尖和p。如下 MSE 损失函数将使得模拟器的输出和伪标签趋近于一致。然后 L L L的定义具体如下图。
在这里插入图片描述

Simulator Attack

依旧先上图:
在这里插入图片描述
第3行:warm-up阶段,query 直接被输入到目标模型中,并且使用一个双端队列D收集这些输入和输出。查询t次。

作者也说了整个攻击流程基于Bandit attack的逻辑,所以有理有据怀疑567行来自Bandit attack。。。有空看一下

每m次查询目标模型,并将结果送至D(超过长度t时D会丢弃老的数据)以fine-tune模拟器;其他时间都利用模拟器来生成攻击,具体攻击如图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值