【DRA】《Toward Understanding and Boosting Adversarial Transferability From a Distribution...》译读笔记

《Toward Understanding and Boosting Adversarial Transferability From a Distribution Perspective》

摘要

近年来,针对深度神经网络(Deep Neural Networks, DNNs)的可转移对抗攻击受到了广泛关注。对抗样本可以由替代模型生成,并成功攻击未知的目标模型,这对DNNs构成了严重威胁。然而,对抗转移性的确切原因仍未被完全理解。之前的工作大多从模型的角度探索原因,如决策边界、模型架构和模型容量。本文从数据分布的角度研究了对抗转移性,并假设将图像推向其原始分布以外,可以增强对抗转移性。具体而言,将图像移出其原始分布使得不同模型难以正确分类该图像,这有利于非定向攻击;而将图像拖入目标分布则误导模型将图像分类为目标类别,这有利于定向型攻击。为此,本文提出了一种新方法,通过操纵图像的分布来生成对抗样本。本文对多个DNN进行多种可转移攻击来证明所提方法的有效性。本文的方法可以显著提高所制作攻击的转移性,并在非定向和定向式场景下均达到最先进的性能,在某些情形下比之前的最佳方法高出多达40%。综上所述,本文的工作为对抗转移性的研究提供了新的见解,并为未来的对抗防御研究提供了有力的参考。

I. 引言

深度神经网络(Deep Neural Networks, DNNs)在许多领域取得了巨大的成功,如人脸识别【1_PAD_Using_LFC, 2_DMBN, 3_Matrix_Regularized_One_Class_MKL】、自动驾驶【4_Physical_Layer_Attack, 5_Hierarchical_DRL, 6_Visual_SLAM_Deep_Learning】和说话人验证【7_ASV_and_Anti_Spoofing, 8_SASV_Through_Sm-ALTP Features, 9_Pre-processing_Defenses】。然而,Szegedy等人[10_Intriguing_Properties_of_NN]【11_Explaining_and_Harnessing_Adversarial_Examples】发现,微小的对抗样本却能对DNNs造成灾难性的影响。更糟糕的是,研究人员发现对抗性样本甚至可以在具有不同架构和参数的模型之间进行迁移【11_Explaining_and_Harnessing_Adversarial_Examples, 12_Adversarial_Examples_and_Black-box_Attacks】,这允许攻击者利用替代模型生成的对抗性样本来攻击未知的目标模型。对抗转移性近年来受到了越来越多的关注。一方面,这种现象从学术界和工业界都引发了对DNNs在现实世界场景中部署时的安全性和可靠性的严重担忧。另一方面,探索对抗性迁移性将有利于许多方面,包括理解深度学习模型、开发更强的防御和鲁棒模型,以及评估现代DNNs的脆弱性【11_Explaining_and_Harnessing_Adversarial_Examples】
  过去几年提出了多种关于对抗样本可转移性的理解,并形成了有效的对抗攻击(方法)。大多数工作从模型的角度解释这种可迁移性,认为代表模型的决策边界[12_Delving_into_Transferable_Adversarial]、模型架构[13_SGM, 14_Robustness_of_18_Image_Classification_Models]和测试精度[15_Understanding_and_Improving_Transferability , 16_TRS]对对抗可迁移性有重大影响。这些从模型角度对对抗可迁移性的理解促使人们提出多种方法来研究模型特性以提高对抗迁移性。一些工作将数据增强[17_Improving_Transferability_with_Input_Diversity, 18_NI-FGSM&SIM, 19_Admix]引入对抗样本的生成或生成器的训练[20_CDA, 21_TTP]来进行攻击,以减少对代理分类器决策边界的依赖。Wu等人[13_SGM]提出修改模型的架构以增强对抗性可迁移性,而Huang等人[22_ILA]则提出使用代理模型的中间特征来进行对抗样本的微调。尽管这些方法在非指向攻击场景中是有效的,但它们在指向式攻击场景中的性能非常有限。
  为了充分理解对抗可迁移性,尤其是在指向型攻击场景中,本文从数据分布出发提出了一个新的观点。回想一下机器学习中的经典假设,即与训练数据集独立且同分布的验证数据(validation data)可以被不同模型正确分类,而分布外的样本则会对模型分类造成困难[23_On_Calibration_and_OOD_Generalization, 24_Understanding_Failure_Modes_of_OOD_Generalization]。本文的设想也是基于这种假设。具体来说,本文将训练数据集的分布表示为 p D ( x ∣ y ) p_D{(\mathbf{x}|y)} pD(xy),其中 y y y表示类别标签, x x x表示图像。不同的模型倾向于预测与 p D ( x ∣ y ) p_D{(\mathbf{x}|y)} pD(xy)同分布的验证数据为 y y y,而很难将不与 p D ( x ∣ y ) p_D{(\mathbf{x}|y)} pD(xy)同分布的数据分类为 y y y。因此,将图像推离其原始分布会导致不同模型对该分布外样本的分类造成困难,从而加强非指向标攻击的可迁移性。将图像拉入设定分布则会使误导不同模型将图像分类为设定类,从而加强指向攻击的可迁移性。
  为此,本文提出一种名为 Distribution-Relevant Attack(DRA)的方法来证明提出的设想。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值