高效数据豁免的黑盒攻击(Towards Efficient Data Free Black-box Adversarial Attack)

简介

这篇文章2022发表在CVPR上

作者是Jie Zhang, Bo Li等人

文章提出,用于黑盒模型(black-box)的攻击手段往往采取建立替代模型(substitute model),替代模型的训练数据难以获得,于是采取了使用GAN网络进行生成;然而传统生成对抗网络(GANs)的框架存在收敛失败和模型崩溃的问题导致效率低下。

本文设计了一种新的黑盒攻击,可以通过少量的查询(queries),有效地模拟目标模型,达到较高的攻击成功率。

损失函数


作者提出了两大优化方向:生成器和替代模型

而针对这两个方向,作者提出了几种损失函数

以下为符号介绍

模型符号
目标模型\mathcal{T}
替代模型\mathcal{S}
生成器\mathcal{G}
数据符号
合成数据X
随机噪声Y
标签Z

生成器

对于生成器而言,是使用随机噪声生成目标类别的数据,评判生成器的两个指标:其一是其能欺骗分类器的能力,也就是生成数据更像真的;其二是生成的数据类别应更加平均,也就是每一个类别的数据数量差不多。

对于第一个指标,优化目标希望生成数据经过分类网络之后与目标标签的损失(交叉熵CE)较小

对于给定目标Y,生成数据X = \mathcal{G}(Z)

对于传统GAN网络的生成器而言,其损失为

L_{G}=CE\left(\mathcal{T}\left(X\right),Y\right)

然而在黑盒中,目标网络的结构参数信息是无法获取的,于是改为使用替代网络

L_{G}=CE\left(\mathcal{S}\left(X\right),Y\right)

对于第二个指标,优化目标为平均概率的信息熵;

信息熵的公式为:\mathcal{H}_{infor} = -\frac{1}{k}\sum_{i=1}^{k}p_{i}\log p_{i}

类比交叉熵,当期待交叉熵小的时候,模型的输出更为自信,即正确类别概率高而其他类别的标签低;在信息熵中,同样具有更高自信度的概率有更低的信息熵,而极度不确定的概率分布的信息熵将更高,极端情况下,当所有类别概率相同时其取得最大值,即p_1=p_2=...=p_k

而多个生成样本经过生成器后产生多组概率值,对nk分类样本X=\left \{ x_1,x_2,...,x_n \right \},其经过分类器(本文语境下即是替代模型\mathcal{S})后的输出类别

\mathcal{S}(X)=P= \begin{bmatrix} p_{11}& p_{12} &... & p_{1k} \\ p_{21}& p_{22} & ... & p_{2k} \\ ...&... & ...& ...\\ p_{n1}& p_{n2} & ...& p_{nk} \end{bmatrix}

对于概率矩阵P而言,其第i行为样本x_i的经过替代模型输出的概率值\mathcal{S}(x_i)j列为所有样本类别k的概率

作者关注所有样本某一类别的概率p^k=p_{1k}+p_{2k}+...+p_{nk}=\sum _{l=1}^{n}p_{lk}

提出了合成数据的信息熵\mathcal{L}_{H}=-\frac{1}{k}\sum_{i=1}^{k}p^{i}\log p^{i}

作者期望最大化该信息熵值,即p^i之间的差距越小,也就是期望概率值更加平均,类别相应的也会更加平均

具体为何用概率限制类别的平均程度,笔者认为该方法作为一种可微分的形式可以使用梯度下降求解最值;而使用概率而不使用logits值。推测是为了缩小样本之间预测值的相对误差,阻止部分样本logits绝对值过大从而影响样本之间的平衡。

自此,生成器的优化目标给定:\mathcal{L}_{G}=CE\left(\mathcal{S}\left(X\right),\hat{Y}\right)+\alpha\mathcal{L}_{H}

替代模型

替代模型的产生类似教师和学生模型的蒸馏思想,即学生会学习教师的输出而非正确标签;

我们希望替代模型和目标模型尽可能的相似,而相似性不仅要表达在自然样本上,同时也要表达在对抗样本上

衡量目标模型和替代模型输出差距的数学语言表达为二者输出概率的距离:

L_{dis}=d(\mathcal T(X),\mathcal S(X))

而对于替代模型和目标模型分类不一致的数据加大惩罚力度,即

\mathcal{L}_{bd}=d(\mathcal{T}(X),\mathcal{S}(X))\cdot1 \{\arg\max\mathcal{T}(X)\neq\arg\max\mathcal{S}(X)\}

同时二者对于对抗样本的边界也同样值得关注,对于同一对抗样本,不同预测类别的数据将加大惩罚力度:

\mathcal{L}_{adv}=d(\mathcal{T}(X),\mathcal{S}(X))\cdot1\Big\{\arg\max\mathcal{T}(\hat{X})=\arg\max\mathcal{S}(\hat{X})\Big\}

最终替代模型的损失为这三者加权和,即\mathcal{L}_S=\mathcal{L}_{dis}+\beta_1\cdot\mathcal{L}_{bd}+\beta_2\cdot\mathcal{L}_{adv}

方法

算法大致分为两部分,其一是生成器的训练,其二是替代模型的训练

生成器生成人造样本之后,交予替代模型,替代模型指导生成器生成更加逼真和类别更加平均的样本;

而替代模型的训练和往常黑盒方法几乎一致,对于生成的人造样本会通过目标模型的输出给予替代模型修正,不过这里也包含对抗样本的相似性。

二者交替进行,最终生成合格的替代模型

训练步骤如下:

实验

数据集

使用的数据集为MNIST , FMNIST, SVHN, CI-FAR10 , CIFAR100 , Tiny-ImageNet

数据集目标模型替代模型
MNIST轻量级CNN小型CNN
FMNIST
SVHNResNet-34ResNet-18
CI-FAR10

GAN网络使用的是StyleGAN

攻击

使用的攻击方式为FGSM、BIM、PGD

非目标攻击场景中,只在被攻击模型正确分类的图像上生成对抗性示例

在目标攻击中,只在没有被分类到特定错误标签的图像上生成对抗性示例

评估指标为攻击成功率(ASR):\frac{n}{m},其中n和m分别是欺骗被攻击模型的对抗样例的个数和对抗样例的总数

数据集\lambda扰动界\alpha步长
MNIST32/2550.031
FMNIST
SVHN8/2552/255
CIFAR10
CIFAR100

最终得出结论:在6个数据集和1个在线机器学习平台上的综合实验表明,该方法能够以较小的查询预算高效地模拟目标模型,实现较高的攻击成功率

  • 18
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值