对检测网络进行黑盒攻击方式:
1.大量的Query,训练对抗样本,容易被轻松防御;
2.模型可转移性,依赖于所转移模型与被攻击模型之间的相似性;
3.梯度估算方法;
4.通过元学习,生成模拟器,对其进行大量查询而对目标黑盒网络进行少量的查询,充分利用Query信息。
由于第一种方法较为暴力,容易防御,第二种方法的不确定性较大,所以重点关注3、4方法
梯度估算方法
代表文章 ZOO:Zeroth Order Optimization Based Black-box Attacks to Deep Neural Networks without Training Substitute Models
文章地址
黑盒的对抗样本攻击中攻击者只能进行输入,并且获得置信度的输出,不能对模型进行反向传播。
强行计算梯度(伪梯度)
首先输入 x x x进行一个扰动 x = x + h ⋅ e x = x + h\cdot e x=x+h⋅e
其中 h = 0.0001 h = 0.0001 h=0.0001是一个常量值, e e e 是一个标准单位向量,你可以理解为某一位为1其余都是0的向量。
记模型的输出为 f ( x ) f ( x ) f(x