关于Adversarial Attack 进攻方的综述

1. 对抗攻击的概念

ML算法的输入形式为数值型向量,攻击者可以设计一种针对性的扰动生成对抗样本,

 

让机器学习模型出现误判,称为对抗性攻击;对抗性攻击分为两种:

  • 黑盒攻击(blck-box attack)

       黑盒攻击的攻击者不知道机器学习的算法和参数,攻击者产生对抗性数据(adversarial permutation)的过程中可以与机器学习        系统有所交互。

  • 白盒攻击(white-box attack)

       白盒攻击的攻击者可以获知机器学习使用的算法与参数,在产生对抗性攻击数据的过程中与机器学习系统有所交互。

2. 针对分类网络的攻击方法

2.1 Box-constained L-BFGS

该方法思想为试图求解让神经网络做出误分类的最小扰动的方程,即

由于问题的复杂度较高,因此转而求解简化后的问题,即寻找最小的损失函数的添加项,使模型做出误分类:

2.2 FGSM

该方法主要对对抗性扰动(adversarial permutation)进行直接求解,在GoodFellow的原文中为:

Kurakin等提出了FGSM的变种(one-step target class),使用了识别概率最小的类别代替了对抗扰动中的类别变量,再从原始图像减去求解的扰动得到对抗样本。

2.3 BIM & ILCM

one-step方法通过一大步增大分类器的损失函数进行图像扰动,可以将其扩展为多个小步增大损失函数的变体,为BIM:

将类别变量替代为识别概率最小的类别即为ILCM。

2.4 JSMA

对抗性文献中一般主要限制扰动的l_2和l_∞范数使得对抗样本中的扰动难以被察觉,JSMA主要对l_0范数进行限制,这样仅改变了几个像素的值而不是整个图像。

2.5 One Pixel Attack

该方法为一种极端的攻击方法,可以仅改变图像的一个像素值使攻击成功,Su等人使用差分进化算法,对每个像素进行迭代的修改,从而生成子图像,并与母图像进行对比。依照标准对攻击效果最好的子图像进行保留以实现对抗共对抗攻击。

2.6 C&W

作者提出三种攻击方法,限制l_∞、l_2、l_0范数使扰动无法被察觉,算法生成的对抗扰动可以进行迁移从而实现黑箱攻击。

2.7 Deepfool

主要通过迭代计算的方法生成范数最小的对抗扰动,将位于分类边界内的图像逐步移到界外,直至分类错误。

2.8 Universal Adcersarial Pertuibations

可以实现对任何图像的攻击,思想与Deepfool类似,但是扰动针对所有的图像。

2.9 UPSET and ANGRI

UPSET可以为特定类别生成对抗扰动,扰动添加的图像被分类成为特定的类别。

UPSET生成的扰动为image-agnostic;ANGRI生成的扰动为image-specific。

2.10 Houdini

主要用于欺骗基于梯度的机器学习算法,可以通过生成特定于任务的损失函数的对抗样本实现对抗攻击,也就是利用网络的可微损失函数的梯度信息生成对抗扰动。

2.11 ATNs

训练神经网络生成对抗样本,可用于攻击一个或多个网络。ATNs最小化联合损失函数生成对抗样本,联合损失函数有两个部分,第一部分使对抗样本与原图像保持相似,第二部分使对抗样本被误分类。

Reference:

[1] https://www.jiqizhixin.com/articles/2018-03-05-4(攻击方法主要搬运于此)

[2] Akhtar N, Mian A. Threat of adversarial attacks on deep learning in computer vision: A survey[J]. IEEE Access, 2018, 6: 14410-14430.

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

space_dandy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值