笔者给大家推荐一篇高效的基于决策的黑盒对抗攻击算法的文章——SurFree: a fast surrogate-free black-box attack,目前该工作已被CVPR2021录用。
论文地址:https://arxiv.org/abs/2011.12807v1\
黑盒攻击
基于分数的黑盒攻击算法是根据目标模型对输入样本的输出,即各个类别的概率分数来估计目标模型损失函数的梯度,进而构造相应的对抗样本。整个过程既不需要知道目标模型的内部信息,也不需要训练额外的替代模型。
基于决策的黑盒攻击算法的特点是仅仅依靠目标模型返回的最终标签类别来生成对抗样本。相比其他两类攻击方法,基于决策的黑盒攻击算法既不需要训练替代模型,也不需要知道每个输入样本归属于各个类别的概率分数,但往往需要向目标模型进行更多次的查询以达到最优的攻击性能。该类型攻击又称为hard-label attack。
基于可迁移性的黑盒攻击,针对某一种机器学习模型的对抗样本常常也会被其它的机器学习模型错误分类。为了攻击目标模型,攻击者首先会训练一个与目标模型尽可能相似的替代模型。对于攻击者而言,替代模型的全部信息都是已知的,因此可以使用已有的白盒对抗攻击算法来生成能够成功欺骗替代模型的对抗样本,根据对抗样本的可迁移性,这些对抗样本大概率也能成功欺骗攻击者真正想要攻击的目标模型。
SurFree攻击
算法概要
机器学习分类器极易受到对抗样本的攻击。所谓对抗样本,是指在数据集中通过故意添加细微的干扰所形成的输入样本,并导致模型给出一个高置信度的错误输出,同时在人类视觉感知上保持与原始样本的高度一致。在过去几年中,为了伪造对抗样本,黑盒攻击向目标分类器提交的查询数量显著减少,这方面研究的进展主要集中于基于分数的黑盒攻击,即攻击者通过获得的分类预测概率实现攻击,将其查询量从数百万次减少到不足一千次。