简介
这篇文章2022发表在CVPR上
作者是Jie Zhang, Bo Li等人
文章提出,用于黑盒模型(black-box)的攻击手段往往采取建立替代模型(substitute model),替代模型的训练数据难以获得,于是采取了使用GAN网络进行生成;然而传统生成对抗网络(GANs)的框架存在收敛失败和模型崩溃的问题导致效率低下。
本文设计了一种新的黑盒攻击,可以通过少量的查询(queries),有效地模拟目标模型,达到较高的攻击成功率。
损失函数
作者提出了两大优化方向:生成器和替代模型
而针对这两个方向,作者提出了几种损失函数
以下为符号介绍
模型 | 符号 |
---|---|
目标模型 | |
替代模型 | |
生成器 |
数据 | 符号 |
---|---|
合成数据 | |
随机噪声 | |
标签 |
生成器
对于生成器而言,是使用随机噪声生成目标类别的数据,评判生成器的两个指标:其一是其能欺骗分类器的能力,也就是生成数据更像真的;其二是生成的数据类别应更加平均,也就是每一个类别的数据数量差不多。
对于第一个指标,优化目标希望生成数据经过分类网络之后与目标标签的损失(交叉熵)较小
对于给定目标,生成数据
对于传统GAN网络的生成器而言,其损失为
然而在黑盒中,目标网络的结构参数信息是无法获取的,于是改为使用替代网络
对于第二个指标,优化目标为平均概率的信息熵;
信息熵的公式为:
类比交叉熵,当期待交叉熵小的时候,模型的输出更为自信,即正确类别概率高而其他类别的标签低;在信息熵中,同样具有更高自信度的概率有更低的信息熵,而极度不确定的概率分布的信息熵将更高,极端情况下,当所有类别概率相同时其取得最大值,即。
而多个生成样本经过生成器后产生多组概率值,对个
分类样本
,其经过分类器(本文语境下即是替代模型
)后的输出类别
对于概率矩阵而言,其第
行为样本
的经过替代模型输出的概率值
,
列为所有样本类别
的概率
作者关注所有样本某一类别的概率
提出了合成数据的信息熵
作者期望最大化该信息熵值,即之间的差距越小,也就是期望概率值更加平均,类别相应的也会更加平均
具体为何用概率限制类别的平均程度,笔者认为该方法作为一种可微分的形式可以使用梯度下降求解最值;而使用概率而不使用logits值。推测是为了缩小样本之间预测值的相对误差,阻止部分样本logits绝对值过大从而影响样本之间的平衡。
自此,生成器的优化目标给定:
替代模型
替代模型的产生类似教师和学生模型的蒸馏思想,即学生会学习教师的输出而非正确标签;
我们希望替代模型和目标模型尽可能的相似,而相似性不仅要表达在自然样本上,同时也要表达在对抗样本上
衡量目标模型和替代模型输出差距的数学语言表达为二者输出概率的距离:
而对于替代模型和目标模型分类不一致的数据加大惩罚力度,即
同时二者对于对抗样本的边界也同样值得关注,对于同一对抗样本,不同预测类别的数据将加大惩罚力度:
最终替代模型的损失为这三者加权和,即
方法
算法大致分为两部分,其一是生成器的训练,其二是替代模型的训练
生成器生成人造样本之后,交予替代模型,替代模型指导生成器生成更加逼真和类别更加平均的样本;
而替代模型的训练和往常黑盒方法几乎一致,对于生成的人造样本会通过目标模型的输出给予替代模型修正,不过这里也包含对抗样本的相似性。
二者交替进行,最终生成合格的替代模型
训练步骤如下:
实验
数据集
使用的数据集为MNIST , FMNIST, SVHN, CI-FAR10 , CIFAR100 , Tiny-ImageNet
数据集 | 目标模型 | 替代模型 |
---|---|---|
MNIST | 轻量级CNN | 小型CNN |
FMNIST | ||
SVHN | ResNet-34 | ResNet-18 |
CI-FAR10 |
GAN网络使用的是StyleGAN
攻击
使用的攻击方式为FGSM、BIM、PGD
非目标攻击场景中,只在被攻击模型正确分类的图像上生成对抗性示例
在目标攻击中,只在没有被分类到特定错误标签的图像上生成对抗性示例
评估指标为攻击成功率(ASR):,其中n和m分别是欺骗被攻击模型的对抗样例的个数和对抗样例的总数
数据集 | ||
---|---|---|
MNIST | 32/255 | 0.031 |
FMNIST | ||
SVHN | 8/255 | 2/255 |
CIFAR10 | ||
CIFAR100 |
最终得出结论:在6个数据集和1个在线机器学习平台上的综合实验表明,该方法能够以较小的查询预算高效地模拟目标模型,实现较高的攻击成功率