Watch Out! Simple Horizontal Class Backdoor Can Trivially Evade Defense（2024）

canlander

已于 2024-09-19 11:08:26 修改

阅读量360

点赞数 4

文章标签：人工智能机器学习

于 2024-09-12 16:40:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/canlander/article/details/142180103

版权

不是clean-label，改变了有效样本的标签。使用无害特征区分有效和非有效样本
使用简单的trigger即可实现。消除了对类的依赖
有效样本和非有效样本都加入trigger，但只改变有效样本的标签；
有效样本+trigger=触发

研究动机：
- 主要研究问题： 作者希望揭示一种全新的后门攻击类型——水平类后门（Horizontal Class Backdoor, HCB）。与现有的依赖于类的垂直类后门（Vertical Class Backdoor, VCB）不同，HCB可以通过与类无关的无害特征（如表情或天气）激活，从而规避现有的防御机制。
  ![[Pasted image 20240912161948.png]]

VCB：选定类的全部样本或任意类的样本加入trigger后就会激活后门攻击
HCB：与类信息无关，与类间可共享的无关信息相关，当无关信息与trigger同时出现时激活攻击

![[Pasted image 20240912162523.png]]

方法：
- 详细方法： 作者提出并定义了HCB攻击，并设计了相应的实验来评估其在不同任务（如MNIST、交通标志识别、医疗诊断等）上的效果。实验使用了简单的触发器（如小白色方块），以证明该攻击类型的普适性和有效性。
结果解释/讨论：
- 研究的局限性： 尽管HCB攻击成功规避了许多现有防御策略，但其攻击效果在某些任务（如CelebA的笑容特征）上的成功率略低于其他任务，表明在无害特征的选择上仍有改进空间。

主要贡献：提出了HCB，进行了HCB攻击的实验评估，分析防御失败的原因
Dirty Samples：有trigger，有无害特征，标签改变
Cover Samples：有trigger，无无害特征，标签不变
无害特征：在不同类别之前共享，但与模型主要任务无关

垂直类别后门攻击（VCB）：

后门的触发依赖于特定类别，只要特定类别带有特定trigger就会触发

类别无关后门（SCAB）:

任何类别样本只要带有trigger，就会导致模型输出错误

类别特定后门（SCSB）：

只在trigger加到特定类别样本上时会导致模型输出错误

水平类别后门攻击（HCB）：

不依赖于样本类别，而是利用样本间共有的无害特征结合trigger进行攻击
![[Pasted image 20240912132717.png]]

模型外包场景：

能够操控整个模型训练过程
正常训练，微调攻击损失函数，对脏数据高度敏感对覆盖样本正常
![[Pasted image 20240912134346.png]]![[Pasted image 20240912134509.png]]![[Pasted image 20240912134654.png]]

数据外包场景：

只能篡改部分训练数据
无害特征，脏数据，覆盖样本

增强策略：

使用透明trigger制作脏数据，使用相同的不透明trigger制作覆盖样本
（设计两种样本的组合方式）

实验：

数据外包场景下的HCB攻击效果

Attack Performance；Poison Rate；Enhancement

模型外包场景下的HCB攻击效果
对防御方法的攻击效果

记录了各防御方法针对HCB攻击的防御效果，并各自分析了防御失效原因

问题&感想：

任何不依赖于样本标签的触发方式都是水平类别攻击？

使用贯穿所有类别的特征检测，不依赖于特定类

为什么水平类攻击可以突破现有防御？

以往防御基于后门攻击依赖于样本类别的假设
防御检测图像中的异常值作为攻击模式，而Cover Sample使这种检测模式变得不可靠
利用无害特征，防御策略聚焦于检测trigger
trigger触发模式难以捕捉，难以通过全局统计特征发现异常

这样就能突破防御有点不可思议，想看以前到底都是怎么防的

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。