Watch Out! Simple Horizontal Class Backdoor Can Trivially Evade Defense(2024)

不是clean-label,改变了有效样本的标签。使用无害特征区分有效和非有效样本
使用简单的trigger即可实现。消除了对类的依赖
有效样本和非有效样本都加入trigger,但只改变有效样本的标签;
有效样本+trigger=触发

  1. 研究动机:
    • 主要研究问题: 作者希望揭示一种全新的后门攻击类型——水平类后门(Horizontal Class Backdoor, HCB)。与现有的依赖于类的垂直类后门(Vertical Class Backdoor, VCB)不同,HCB可以通过与类无关的无害特征(如表情或天气)激活,从而规避现有的防御机制。
      ![[Pasted image 20240912161948.png]]

VCB:选定类的全部样本或任意类的样本加入trigger后就会激活后门攻击
HCB:与类信息无关,与类间可共享的无关信息相关,当无关信息与trigger同时出现时激活攻击

![[Pasted image 20240912162523.png]]

  1. 方法:

    • 详细方法: 作者提出并定义了HCB攻击,并设计了相应的实验来评估其在不同任务(如MNIST、交通标志识别、医疗诊断等)上的效果。实验使用了简单的触发器(如小白色方块),以证明该攻击类型的普适性和有效性。
  2. 结果解释/讨论:

    • 研究的局限性: 尽管HCB攻击成功规避了许多现有防御策略,但其攻击效果在某些任务(如CelebA的笑容特征)上的成功率略低于其他任务,表明在无害特征的选择上仍有改进空间。

主要贡献:提出了HCB,进行了HCB攻击的实验评估,分析防御失败的原因
Dirty Samples:有trigger,有无害特征,标签改变
Cover Samples:有trigger,无无害特征,标签不变
无害特征:在不同类别之前共享,但与模型主要任务无关

垂直类别后门攻击(VCB):

后门的触发依赖于特定类别,只要特定类别带有特定trigger就会触发

类别无关后门(SCAB):

任何类别样本只要带有trigger,就会导致模型输出错误

类别特定后门(SCSB):

只在trigger加到特定类别样本上时会导致模型输出错误

水平类别后门攻击(HCB):

不依赖于样本类别,而是利用样本间共有的无害特征结合trigger进行攻击
![[Pasted image 20240912132717.png]]

模型外包场景:

能够操控整个模型训练过程
正常训练,微调攻击损失函数,对脏数据高度敏感对覆盖样本正常
![[Pasted image 20240912134346.png]]![[Pasted image 20240912134509.png]]![[Pasted image 20240912134654.png]]

数据外包场景:

只能篡改部分训练数据
无害特征,脏数据,覆盖样本

增强策略:

使用透明trigger制作脏数据,使用相同的不透明trigger制作覆盖样本
(设计两种样本的组合方式)

实验:

  1. 数据外包场景下的HCB攻击效果

Attack Performance;Poison Rate;Enhancement

  1. 模型外包场景下的HCB攻击效果
  2. 对防御方法的攻击效果

记录了各防御方法针对HCB攻击的防御效果,并各自分析了防御失效原因

问题&感想:

  1. 任何不依赖于样本标签的触发方式都是水平类别攻击?

使用贯穿所有类别的特征检测,不依赖于特定类

  1. 为什么水平类攻击可以突破现有防御?

以往防御基于后门攻击依赖于样本类别的假设
防御检测图像中的异常值作为攻击模式,而Cover Sample使这种检测模式变得不可靠
利用无害特征,防御策略聚焦于检测trigger
trigger触发模式难以捕捉,难以通过全局统计特征发现异常

  1. 这样就能突破防御有点不可思议,想看以前到底都是怎么防的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值