【论文笔记】Simulating Unknown Target Models for Query-Efficient Black-box Attacks

最新推荐文章于 2022-09-28 16:00:33 发布

kaguya1004

最新推荐文章于 2022-09-28 16:00:33 发布

阅读量1.2k

点赞数 2

分类专栏：论文笔记文章标签：神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kaguya1004/article/details/121366253

版权

论文笔记专栏收录该内容

5 篇文章 1 订阅

订阅专栏

入选CVPR2021，一篇有原作者讲解的文章~非常详细，所以这里就记录一些自己曾经迷惑的点链接任何网络都能山寨！新型黑盒对抗攻击模拟未知网络进行攻击

Contribution

1.通过训练一个名为“模拟器”的广义替代模型，提出了一种新的黑盒攻击。训练使用知识提取损失在模拟器和采样网络之间进行元学习。训练后，模拟器只需要几个查询就可以准确地模拟训练中看不到的任何目标模型。

2.在训练中消除目标模型后，我们发现了一种新的安全威胁：拥有关于目标模型的最少信息也可以伪造该模型，以实现高效的查询攻击。(这条是凑数的嘛。。。）

3.通过使用CIFAR-10、CIFAR-100和TinyImageNet数据集进行广泛的实验，我们证明了所提出的方法与最先进的攻击具有相似的成功率，但查询数量空前少。

Method

Task Generation and Simulator Learning

看了两遍才明白过来，仅训练模型就包含了两部分。。第一部分生成训练模型所需的数据，第二步才是训练模型。。。

先贴一下算法框图，看这个图我算是看明白了！在这里插入图片描述
就着图解释一下一些疑惑点：

作者所说内部更新应该是12行，外部更新应该是14行

第十行：该研究随机采样 K 个 task 组成一个 mini-batch 进行学习。在学习每个 task 之前，模拟器将其参数重新初始化为θ（在N的迭代中，由上一批更新得到的）

Loss Function: 基于知识蒸馏的损失函数,给定一个 query pair Q_i的两个 query Q_i,1和Q_i,2（由于 Bandits 攻击使用有限差分法去估计梯度，因此每次迭代生成一个 query pair,由两部分组成）。模拟器和随机选择的分类网络的 logits 输出分别记为p尖和p。如下 MSE 损失函数将使得模拟器的输出和伪标签趋近于一致。然后 $L$ 的定义具体如下图。
在这里插入图片描述

Simulator Attack

依旧先上图：
在这里插入图片描述
第3行：warm-up阶段，query 直接被输入到目标模型中，并且使用一个双端队列D收集这些输入和输出。查询t次。

作者也说了整个攻击流程基于Bandit attack的逻辑，所以有理有据怀疑567行来自Bandit attack。。。有空看一下

每m次查询目标模型，并将结果送至D（超过长度t时D会丢弃老的数据）以fine-tune模拟器；其他时间都利用模拟器来生成攻击，具体攻击如图

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。