clean-label攻击
- 研究动机:
- 主要研究问题:在信息极其有限的情况下(即仅拥有目标类的数据),是否仍能发起有效的Clean-Label攻击。(比方说需要从多来源聚合的数据集上训练模型)现有的干净标签(clean-label)后门攻击大多依赖于完整或较大比例的训练数据集
- 创新点为减少攻击数据依赖
攻击者知识:目标类示例,学习任务的一般信息(可以去收集与学习任务相关的额外样本)
![[Pasted image 20240912143050.png]]
(a)非目标类:在非目标类样本上添加trigger,将标签改为目标类。扩大了目标类决策范围
(b)直接目标类:在目标类样本上添加trigger,由于trigger多是无关噪声,会使后门样本逼近决策边界。模型学习到带有trigger的目标分类模式,从而将非目标类带有trigger的样本分为目标类
©:通过代理模型在非目标类上生成噪声加入trigger,使非目标类样本特征与目标类样本特接近,扩大了目标类决策边界,模型将这种非目标类样本识别为目标类
- 方法:
- trigger被设计成能够激活或增强模型对于目标类别已有特征的响应,而不是引入与目标类别无关的全新特征。
- 增强目标特征,提高攻击隐蔽性,难检测难除去。制作将每个目标类示例转换为置信度更高的目标类的trigger。
- 详细方法:作者通过引入代理模型(surrogate model),使用少量的目标类数据和分布外数据(POOD)来模拟目标模型的行为,从而生成优化的触发器。
- ![[Pasted image 20240912150214.png]]
- 攻击流程:
-首先使用POOD示例训练代理模型
–获得对给定学习任务通用的特征。由于不包含目标类数据所以这部分是无法找到区分目标类的稳健特征的
-再在已知的目标类示例上微调模型处理过程
–使模型能够快速捕获特征以识别目标类( 分为两步训练是为了迎合动态选择的可能。可以两部分合并训练)
-每次迭代抽取部分目标类样本计算梯度,更新trigger
-测试阶段对trigger进行放大策略提高攻击成功率
![[Pasted image 20240912151303.png]]
主要贡献:攻击需要数据少,物理世界clean label成功
低信息需求,高攻击成功率,物理世界可行
POOD:公共分布外数据,攻击者可随意从网络中获取的数据,与目标任务相关但与实际训练数据分布不同。只是相关。不包含目标类
觉得通过POOD和少量相关数据生成代理模型是工作的重点(发现之前有类似工作)
更改:代理模型生成增强目标类特征的trigger是工作主要创新点
测试阶段的trigger直接应用于物理对象
突破防御:
trigger和有限的目标类特征高度相似,表现得很像目标类特征,模型无法区分或独立去除
trigger范围很大覆盖全局,无明显局部特征
实验:
与现有的部分后门攻击比较
攻击设计参数对攻击效果的影响
现有防御的效果
问题&感想:
- 对于这种trigger突破防御的方式有点意外,感觉应该有挺多攻击是专门设计的吧?论文看得少了没串起来
- 论文没有太具体写生成代理模型的时间成本,估计不会短吧
5个epoch,好像不算多
- 防御难以去除trigger?不是难以检测?
难以事先检测到后门模式,也难以在直到被攻击的情况下消除后门威胁
- 这篇论文的研究背景跟联邦很像,从多个数据提供源处获取信息,假设只能获取其中一个提供者的数据。貌似更适合纵向联邦学习,每人学一个特征,获取一个人的也就是获取了一个目标类的,其他类不知道。