Decoupling Direction and Norm for Efficient Gradient-Based L2 Adversarial Attacks and Defenses(2019 CVPR Oral)
文章简介:
本文提出了一种有效的基于梯度的攻击方法DDN,通过对图像中添加的对抗性扰动的方向和范数进行解耦,从而在L2范数较低的情况下成功攻击目标网络。在2018 NIPS Adversarial Vision Challenge(black-box)中,本文方法在untargeted attacks中排名第一,在targeted attack和robust models中排名第3。
-
相关工作的缺点:
- CW是目前最有效的white-box攻击,并且只有较小的L2 noise,但是该方法的缺点是速度慢(用的是line-search),经常需要迭代上千次。(DDN需要的迭代次数比C&W大约少100倍)
- one-step攻击方法虽然速度快,但是用他们训练不能提高模型在white-box条件下的鲁棒性
-
Dataset:
- mnist
- cifar-10
- imagenet datasets
-
特点:
- 使用DDN进行对抗训练后的模型能够outperform Madry defense(state-of-the-art)
- gradient-based attacks that optimize the L2 norm of the distortion
- white-box(本文讨论的范围,但也可以进行black-box attack)、untargeted attack & targeted attack
-
生成效果:
-
算法介绍:
- 在算法优化过程中不需要对L2 norm进行惩罚,可以在一定程度上解放在过往方法中对超参数C的选择( C C C为L2 norm的系数),本文是通过将对抗性扰动 δ \delta δ投影到原图 x x x的 ϵ − s p h e r e \epsilon-sphere ϵ−sphere来进行限制。然后L2 norm就修改为了binary decision(如果sample x k x_k xk(第k步)不是对抗的,则第k+1步的扰动会增加否则减少)
- 算法中为了解决梯度范数变化较大的问题,作者在进行方向更新前先对其进行归一化
- 当 m = 1 m=1 m=1时,为untargeted attack,其目的是增大true label的loss;当 m = − 1 m=-1 m=−1时,为targeted attack,注意到现在的y是target label,所以我们要减小target label的loss。
-
结果对比:
- untargeted attack
- 对于MNIST和CIFAR-10,DDN与C&W和DeepFool性能差不多,当C&W的迭代次数
- 对于ImageNet,DDN只需要迭代300步就能达到100%的成功攻击率,并且有更好的Mean L2 norm。DeepFool虽然Mean L2 norm与DDN比较接近,但成功攻击率未能达到100%。
- targeted attack
- (这里只列举ImageNet结果)可以发现,达到100%的成功攻击率,DDN所需要的迭代次数更少,并且不管在Average case还是Least Likely case,DDN的mean L2 norm都比较小。
如果觉得我有地方讲的不好的或者有错误的欢迎给我留言,谢谢大家阅读(点个赞我可是会很开心的哦)~