Black-box Adversarial Attacks with Limited Queries and Information(ICML2018)
1、摘要
黑盒模型是指只能获得它的输入输出,但在真实世界中,黑盒模型往往连输入输出都有一定限制,比如限制查询次数,当过度频繁访问一个模型,模型有可能自锁不允许访问,针对现实世界的黑盒模型,作者提出三个真实的威胁模型:查询量有限、部分信息设置和仅标签有限。针对这三个问题,作者提出了一种新的黑盒攻击方法。本文受自然进化策略(NES)的启发,提出使用NES作为黑盒梯度估计技术,并使用带有估计梯度的PGD(用于白盒攻击)构造对抗样本。想看懂这篇文章可以先去看ZOO和有限差分方法。
2、三种威胁模型的攻击方法
黑盒攻击面临的三个约束:
- Query-limited setting:攻击者对分类器具有有限的查询结果,对查询数量的限制可能是对其他资源的限制的结果,例如,时间限制和金钱限制。
- Partial-information setting:如何保证生成的目标类在属于top-k类,攻击者只能访问标签 y 在 top k 类标签 y 1 , y 2 , . . . , y k的概率 p ( y ∣ x ) 。
- Label-only setting :只知道top-k 中有啥类别,不知道类别的score 如何确定每个类别的score在只使用标签的设置中,敌手不能访问类的概率或分数,只能访问 k 个根据其预测概率排序的推断标签的列表。
为了估计梯度,文中一种基于搜索分布π(θ|x)思想的无导数优化方法。NES不是直接最大化目标函数F(x),而是最大化搜索分布下损失函数的期望值。这使得梯度估计比典型的有限差分方法查询要少得多。
(1)查询限制
使用NES进行梯度估计的伪代码:
估计完梯度进行对抗样本的生成:
(2)部分信息设置
(3) 仅有的标签设置
首先定义对抗样本的离散分数:
然后考虑对抗图像对随机扰动的鲁棒性,基于离散分数量化对抗样本的对抗性:
最后使用蒙特卡罗近似法估计该代理分数:
蒙特卡罗方法是一种计算方法。原理是通过大量随机样本,去了解一个系统,进而得到所要计算的值。