【2020ICLR】
Du, Jiawei, Hu Zhang, Joey Tianyi Zhou, Yi Yang, and Jiashi Feng. "Query-efficient Meta Attack to Deep Neural Networks." arXiv preprint arXiv:1906.02398 (2019).
任务:基于meta-learning的灰盒攻击
本文研究的内容是基于meta-learning的灰盒攻击,使用一个autoencoder网络结构来估计梯度,并使用reptile的meta-learning训练方法进行训练
在测试时,首先使用coordinate-wise的方法使用少量坐标轴轴的梯度来进行finetune梯度估计的autoencoder网络,并同时生成对抗样本
任务目标
meta-learning的训练数据
使用n个模型来进行训练,对于每个模型,使用如下的max-logit的损失函数来求梯度:
Mi表示第i个模型,t为x对应的真实标签
训练数据:
训练算法
使用reptile的更新策略对参数进行更新
攻击算法
每个m步对梯度估计网络A进行finetune,具体为查询前q维坐标轴的梯度,并使用L2损失进行更新参数,其他情况使用网络生成梯度,并使用前q维中的梯度对输入图像进行扰动,直到攻击成功
假设图像中一共有p维,在每次梯度查询或者更新时,仅仅从中挑选q维作为子集(It),以减少查询量
q维的确定使用前一时间步的梯度g_{t-1}中值最大的q维
数据集
使用数据集MNIST、CIFAR10、tiny-ImageNet
CIFAR10使用VGG13、VGG16、GoogleNet训练meta attacker网络,攻击ResNet18
tiny-ImageNet使用VGG13、VGG16和ResNet18进行训练,攻击VGG19和ResNet34
训练细节
meta train时使用学习率为0.01的reptile算法
三个数据集训练时均使用10000个样本
finetune时m在MNIST和CIFAR10中选取为5,tiny-ImageNet中选取为3
选取坐标轴维度:MNIST中q为128,CIFAR10和tiny-ImageNet中q为500
实验
【无目标攻击】
【有目标攻击】
【查询次数vs成功率】
【meta learning方法的有效性】
init attacker为在meta train阶段没有进行训练,而在mete test阶段直接使用随机初始化的网络(由于该阶段会进行finetune,因此仍然可以攻击成功)
vanilla autoencoder为同样结构的网络,在一个白盒模型上训练的
estimated ZOO为使用ZOO估计的梯度在4个黑盒模型上训练的