论文那些事—Black-box Adversarial Attacks with Limited Queries and Information

Black-box Adversarial Attacks with Limited Queries and Information(ICML2018)

1、摘要

黑盒模型是指只能获得它的输入输出,但在真实世界中,黑盒模型往往连输入输出都有一定限制,比如限制查询次数,当过度频繁访问一个模型,模型有可能自锁不允许访问,针对现实世界的黑盒模型,作者提出三个真实的威胁模型:查询量有限、部分信息设置和仅标签有限。针对这三个问题,作者提出了一种新的黑盒攻击方法。本文受自然进化策略(NES)的启发,提出使用NES作为黑盒梯度估计技术,并使用带有估计梯度的PGD(用于白盒攻击)构造对抗样本。想看懂这篇文章可以先去看ZOO和有限差分方法

2、三种威胁模型的攻击方法

黑盒攻击面临的三个约束:

  1. Query-limited setting:攻击者对分类器具有有限的查询结果,对查询数量的限制可能是对其他资源的限制的结果,例如,时间限制和金钱限制。
  2. Partial-information setting:如何保证生成的目标类在属于top-k类,攻击者只能访问标签 y 在 top k 类标签 y 1 , y 2 , . . . , y k的概率 p ( y ∣ x ) 。
  3. Label-only setting :只知道top-k 中有啥类别,不知道类别的score 如何确定每个类别的score在只使用标签的设置中,敌手不能访问类的概率或分数,只能访问 k 个根据其预测概率排序的推断标签的列表。
     

为了估计梯度,文中一种基于搜索分布π(θ|x)思想的无导数优化方法。NES不是直接最大化目标函数F(x),而是最大化搜索分布下损失函数的期望值。这使得梯度估计比典型的有限差分方法查询要少得多。

(1)查询限制

使用NES进行梯度估计的伪代码:

 估计完梯度进行对抗样本的生成:

 (2)部分信息设置

(3) 仅有的标签设置

首先定义对抗样本的离散分数:

 然后考虑对抗图像对随机扰动的鲁棒性,基于离散分数量化对抗样本的对抗性:

 最后使用蒙特卡罗近似法估计该代理分数:

 蒙特卡罗方法是一种计算方法。原理是通过大量随机样本,去了解一个系统,进而得到所要计算的值。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值