IEEE S&P会议23、24年后门攻击和防御相关论文

为了自己读论文方便,我将23、24年度IEEE S&P会议中有关后门攻击的论文汇总了一下,主要是论文的中英文名称和PDF地址,以后看了哪篇论文也会逐渐把论文的主要内容加上去。


2023年收录论文集合:IEEE Symposium on Security and Privacy 2023

 2024年收录论文集合:IEEE Symposium on Security and Privacy 2024

2024年(共12篇)

24年的会议论文目前分为三个审稿周期给出:

Spring Cycle

(1)论文题目:MMBD: Post-Training Detection of Backdoor Attacks with Arbitrary Backdoor Pattern Types Using a Maximum Margin Statistic

(MMBD:使用 最大间隔统计量 对任意后门模式类型的后门攻击进行训练后检测)

PDF地址:https://arxiv.org/pdf/2205.06900

后门防御

要解决的问题

  1. 现有后门防御方法大部分只针对单一后门触发器形式进行防御;
  2. 大部分后门防御方法需要干净数据样本才能实现防御(干净样本作为区分后门样本的依据)

MM-BD检测方法原理

模型在softmax层之前的logits层输出的是模型对于输入图像的类别判断的真实概率值。

logits层示意图

 而后门图像在输入被污染的后门模型后,会在logits层的输出上表现出与干净图像的结果不同的性质来。具体表现为:后门攻击的存在会提升目标类别的logits值,更重要的是,会抑制所有其他类别的logits值。

论文中通过一个最大间隔统计量(Maximum Margin Statistic)来的概率分布情况来判断分类任务中的某一个类别是否被攻击(即被设定为目标类别):

公式中的g(x)将模型从输入到logits层的输出过程抽象成了一个函数;下标t表示目标类别,c表示任意分类类别。该公式即表示:目标类别对应的最大间隔统计量要明显大于其他类别的最大间隔统计量,以这个现象为根据来检测某个类别是否受到攻击

MM-BD检测过程

检测方法的实现用到了概率论的假设检验方法

该论文还提到了一个MM-BM的后门消除方法,整体思路就是给模型神经元加一个变化上限Z,实现比较简单。不再介绍(论文这部分一看就能懂)

优点

实现方法简单,只需要对logits层的输出进行概率统计判断即可;不需要干净样本,只要有后门样本输入就可以检测到

存在的问题

这个论文的基础是IEEE的一个白盒模型后门移除比赛的项目,论文的实验侧重点都在可见的像素后门上。在全局对抗扰动类型的触发器上,该方法的检测效果没有充足的实验证明,但效果不一定好;

该方法虽然不需要准备干净样本进行后门检测,但是如果输入模型的全部都是干净样本,后门样本没有出现。那么模型的后门没有被触发,该方法依旧检测不出来后门是否存在。


(2)论文题目:BadVFL: Backdoor Attacks in Vertical Federated Learning

(BadVFL:垂直联邦学习中的后门攻击)

PDF地址:https://arxiv.org/pdf/2304.08847

摘要:

联邦学习(FL)使多个参与方能够在不共享其数据的情况下协同训练机器学习模型;他们在本地训练自己的模型,并将更新发送到中央服务器进行聚合。根据参与者之间数据的分布方式,FL可以分为水平联邦学习(HFL)和垂直联邦学习(VFL)。在VFL中,参与者共享相同的训练实例集,但仅持有整个特征空间中不同且不重叠的子集。而在HFL中,每个参与者共享相同的特征集,而训练集被划分为各自拥有的本地训练数据子集。

VFL在诸如金融欺诈检测等应用中越来越受到关注;然而,关于其安全性的分析工作却非常少。在本文中,我们关注VFL的鲁棒性,特别是后门攻击,其中攻击者试图在训练过程中操纵聚合模型以触发误分类。在VFL中执行后门攻击比在HFL中更具挑战性,因为攻击者 (i) 在训练过程中无法访问标签,(ii) 由于只能访问特征嵌入,无法更改标签。我们提出了一种首创的“干净标签”后门攻击方法,适用于VFL,包括两个阶段:标签推断和后门植入。我们在三个不同的数据集上展示了该攻击的有效性,研究了影响其成功的因素,并讨论了减轻其影响的对策。


(3)论文题目:Backdooring Multimodal Learning

(走后门的多模态学习)  

PDF地址:https://tianweiz07.github.io/Papers/24-SP.pdf


(4)论文题目:Distribution Preserving Backdoor Attack in Self-supervised Learning

(自监督学习中的分布保持后门攻击)

PDF地址:需在IEEE网站上下载

Summer Cycle

(5)论文题目:FlowMur: A Stealthy and Practical Audio Backdoor Attack with Limited Knowledge

(FlowMur:一种隐秘实用的音频后门攻击,知识有限)

论文地址:2312.09665


(6)论文题目:Robust Backdoor Detection for Deep Learning via Topological Evolution Dynamics 

(基于拓扑进化动力学的深度学习鲁棒后门检测)

论文地址:2312.02673

后门防御

摘要

基于拓扑演化动力学,实现了一种区分良性样本和恶意样本的检测方法

深度学习中的后门攻击通过在模型中插入隐藏的后门,使其在特定输入模式下触发恶意行为。现有的检测方法假设存在一个度量空间(针对原始输入或其潜在表示),在该空间中正常样本和恶意样本是可以分离的。我们通过引入一种新的 SSDT(特定来源和动态触发器,Source-Specific and Dynamic-Triggers) 后门,展示了这种假设的严重局限性。这种后门模糊了正常样本和恶意样本之间的区别。

为了解决这一问题,我们不再尝试寻找一个适用于不同深度学习模型的完美度量空间,而是转而依赖更稳健的拓扑构造。我们提出了 TED(拓扑演化动力学,Topological Evolution Dynamics),作为一种与模型无关的鲁棒后门检测方法。TED 的核心思想是将深度学习模型视为一个将输入演化为输出的动态系统。在这样的动态系统中,良性输入会沿着与其他良性输入类似的自然演化轨迹。而恶意样本则表现出不同的轨迹,因为它们起初接近良性样本,但最终向攻击者指定的目标样本的邻域偏移,以激活后门。

我们在视觉和自然语言数据集上,对不同网络架构进行了广泛评估。结果表明,TED 不仅实现了较高的检测率,还在应对复杂的 SSDT 攻击方面显著优于现有的最先进检测方法。本文的实验代码已在 GitHub 上公开。

主要内容

提出SSDT攻击,证明在现在基于度量空间区分良性和恶意样本的防御方法没有效果

提出基于TED的防御方法,在样本的拓扑空间上对不同样本进行区分。根据样本拓扑结构的差异,采用简单的异常检测方法就可以区分出恶意输入

  • 度量空间:关注样本之间的具体数值距离,重视“距离有多远”。
  • 拓扑空间:关注样本之间的邻域关系和连接方式,重视“谁与谁相邻,关系如何变化”。

(7)论文题目:ODSCAN: Backdoor Scanning for Object Detection Models 

(ODSCAN:对象检测模型的后门扫描)

论文地址:SP24_Cheng.pdf

Winter Cycle

(8)论文题目:BAFFLE: Hiding Backdoors in Offline Reinforcement Learning Datasets 

(BAFFLE:隐藏离线强化学习数据集中的后门)

PDF地址:2210.04688


(9)论文题目:DeepVenom: Persistent DNN Backdoors Exploiting Transient Weight Perturbations in Memories

(深度毒液:持续的DNN后门利用了记忆中短暂的权重扰动)

PDF地址:2024-sp-deepvenom.pdf

PPT:DeepVenom-slides-short-v2.pdf


(10)论文题目:Need for Speed: Taming Backdoor Attacks with Speed and Precision 

(速度的需要:用速度和精度驯服后门攻击)

PDF地址:需要IEEE上下载


(11)论文题目:Exploring the Orthogonality and Linearity of Backdoor Attacks 

(探索后门攻击的正交性和线性)

PDF地址:Exploring the Orthogonality and Linearity of Backdoor Attacks - Proceedings of the 45th IEEE Symposium on Security and Privacy (S&P 2024)

GitHub地址(包含论文、代码和可视化实现):Exploring the Orthogonality and Linearity of Backdoor Attacks (IEEE S&P)


(12)论文题目:BELT: Old-School Backdoor Attacks can Evade the State-of-the-Art Defense with Backdoor Exclusivity Lifting

后门攻击)

(BELT:老派后门攻击可以逃避后门排他性解除最先进的防御)

PDF地址:2312.04902

摘要:

提出BELT方法提升传统后门攻击的隐蔽性

深度神经网络(DNN)容易受到后门攻击,攻击者在模型中嵌入恶意功能,以触发错误的分类。传统的后门攻击使用强烈的触发特征,受害模型容易学习到这些特征。尽管这些攻击对输入变化具有鲁棒性,但这种鲁棒性也增加了非故意触发激活的可能性。这为现有的防御方法留下了线索,这些防御通过例如逆向工程和样本叠加,寻找原始触发器的近似替代品,能够在不与原始触发器完全相同的情况下激活后门。

在本文中,我们提出并研究了后门攻击的一个新特性,即后门排他性(backdoor exclusivity),它衡量了后门触发器在输入变化情况下仍然有效的能力。基于后门排他性的概念,我们提出了后门排他性提升(Backdoor Exclusivity LifTing,BELT)技术,这是一种新颖的方法,通过抑制后门与模糊触发器之间的关联来增强后门排他性,从而避开防御。我们在三个流行的后门基准上进行了广泛的评估,验证了我们的方法实质性地增强了四种传统后门攻击的隐蔽性。经过后门排他性提升后,这些攻击能够避开七种最先进的后门防御措施,而几乎不影响攻击成功率和模型的正常功能。例如,最早的后门攻击之一BadNet,在经过BELT增强后,能够避开包括ABS和MOTH在内的大多数最先进的防御方法,这些方法原本可以识别出被植入后门的模型。

主要内容:

提出后门排他性;提高后门攻击隐蔽性。旨在逃避那些依赖模糊触发器来检测和消除后门的防御方法。

方法简述:①对原始触发器加扰动,测试触发器失效的边界;②用两类真中毒样本:带原始触发器的和带模糊触发器的,让模型后门只能对原始触发器做出反应,对模糊触发器没有反应

实现方法还是基于白盒的训练方法,针对的是特定的一种防御方法


2023年(共9篇)

(1)论文题目:Disguising Attacks with Explanation-Aware Backdoors

(用解释感知后门伪装攻击)

PDF地址:2023-ieeesp.pdf


(2)论文题目:Selective Amnesia: On Efficient, High-Fidelity and Blind Suppression of Backdoor Effects in Trojaned Machine Learning Models 

(选择性遗忘:特洛伊机器学习模型中后门效应的高效、高保真和盲抑制)

PDF地址:2212.04687


(3)论文题目:AI-Guardian: Defeating Adversarial Attacks using Backdoors

(AI-Guardian:利用后门击败敌对攻击)

PDF地址:IEEE Xplore Full-Text PDF:


(4)论文题目:Jigsaw Puzzle: Selective Backdoor Attack to Subvert Malware Classifiers

(拼图游戏:颠覆恶意软件分类器的选择性后门攻击)

PDF地址:Jigsaw Puzzle: Selective Backdoor Attack to Subvert Malware Classifiers


(5)论文题目:BayBFed: Bayesian Backdoor Defense for Federated Learning

(BayBFed:用于联邦学习的贝叶斯后门防御)

PDF地址:2301.09508

后门防御


(6)论文题目:REDEEM MYSELF: Purifying Backdoors in Deep Learning Models using Self Attention Distillation

(救赎自己:使用自我注意力蒸馏净化深度学习模型中的后门)

PDF地址:Redeem Myself: Purifying Backdoors in Deep Learning Models using Self Attention Distillation

后门防御


(7)论文题目:RAB: Provable Robustness Against Backdoor Attacks

(RAB:可证明的抵御后门攻击的鲁棒性)

PDF地址:2003.08904

后门防御


(8)论文题目:3DFed: Adaptive and Extensible Framework for Covert Backdoor Attack in Federated Learning

后门攻击

3DFed:联邦学习中隐蔽后门攻击的自适应可扩展框架

PDF地址:IEEE Xplore Full-Text PDF


(9)论文题目:MagBackdoor: Beware of Your Loudspeaker as A Backdoor For Magnetic Injection Attacks

(MagBackdoor:当心你的扬声器成为磁注入攻击的后门)

PDF地址:IEEE Xplore Full-Text PDF:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值