badclip:后门攻击与多模态结合

最新推荐文章于 2025-04-07 17:03:19 发布

☞黑心萝卜三条杠☜

最新推荐文章于 2025-04-07 17:03:19 发布

阅读量1k

点赞数 29

分类专栏：论文文章标签：论文阅读人工智能学习

本文链接：https://blog.csdn.net/qq_53960242/article/details/146112001

版权

论文专栏收录该内容

8 篇文章

订阅专栏

标题: BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning
机构: National University of Singapore, The Chinese University of Hong Kong, Shenzhen, Beihang University, Sun Yat-sen University-Shenzhen
链接: https://openaccess.thecvf.com/content/CVPR2024/papers/Liang_BadCLIP_Dual-Embedding_Guided_Backdoor_Attack_on_Multimodal_Contrastive_Learning_CVPR_2024_paper.pdf
code: https://github.com/LiangSiyuan21/BadCLIP

文章贡献

提出新型后门攻击方法：
- 本文提出了BadCLIP，一种针对多模态对比学习（MCL）的后门攻击方法，该方法能够有效抵抗现有的后门检测和模型微调防御技术。
- BadCLIP通过双嵌入引导框架（dual-embedding guided framework）实现后门攻击，使得攻击在实际应用中更加隐蔽和有效。
提高后门攻击的隐蔽性和有效性：
- 通过优化视觉触发模式（visual trigger patterns）和文本目标语义（textual target semantics），使得后门攻击在嵌入空间中难以检测。
- 实验结果表明，BadCLIP在面对最先进的后门防御技术时，攻击成功率（ASR）显著提高，达到98.81%。
强调实际应用中的威胁：
- 本文揭示了在实际使用场景中，即使下游用户/防御者采用了后门检测和微调防御技术，后门攻击仍然可能有效。
- 这一发现提高了对多模态对比学习潜在威胁的认识，并鼓励开发更 robust 的防御机制。

文章方法

双嵌入引导框架：
- 文本嵌入一致性优化（Textual Embedding Consistency Optimization）：
  
  通过优化视觉触发模式，使其在嵌入空间中接近目标文本的语义，从而减少模型参数的显著变化，避免后门检测。
  优化目标为最小化视觉触发模式与目标文本嵌入之间的损失函数：
  
  $L_t = -\sum_{i=1}^{N_1} \log g(\{\hat{v}^{(1)}_i, T^*_i\}; \Theta^{(0)}) / \sum_{j=1}^{N_1} g(\{\hat{v}^{(1)}_i, t^{(1)}_j\}; \Theta^{(0)})$
- 视觉嵌入抵抗优化（Visual Embedding Resistance Optimization）：
  优化视觉触发模式，使其与目标标签的原始视觉特征对齐，从而在微调过程中难以消除后门。优化目标为最小化视觉触发模式与真实图像特征之间的距离：
  
  $L_{p_i} = \sum_{i=1}^{N_1} d(f_v(\hat{v}^{(1)}_i; \theta^{(0)}_v), f_v(I^*_i; \theta^{(0)}_v))$
  
  $L_{n_i} = -\sum_{i=1}^{N_1} d(f_v(\hat{v}^{(1)}_i; \theta^{(0)}_v), f_v(v^{(1)}_i; \theta^{(0)}_v))$
触发模式优化：
- 选择基于补丁的视觉触发模式（patch-based visual trigger pattern），并使用目标自然文本描述进行优化。
- 优化函数为：
  $L_t + \lambda_1 \times \max(0, L_{p_i} + \lambda_2 \times L_{n_i} + \eta)$
- 其中， $\lambda_1$ 、 $\lambda_2$ 和 $\eta$ 是平衡参数。
中毒样本采样：
- 采用边界样本和最远样本进行触发模式注入，以提高后门学习的效果。
- 采样策略包括边界样本、最远样本和随机样本，比例为1:1:1。

文章实验

实验设置：
- 模型和数据集：
  - 使用OpenAI的CLIP模型作为预训练模型，训练数据集为400M图像-文本对。
  - 在数据中毒阶段，从CC3M数据集中选择500K图像-文本对，其中1500个样本被中毒为目标标签“banana”。
- 评估指标：
  - 使用干净准确率（CA）和攻击成功率（ASR）作为评估指标。
- 对比方法：
  - 对比7种经典的后门攻击方法，包括BadNet、Blended、SIG、SSBA、TrojanVQA、mmPoison和BadEncoder。
  - 防御方法包括DECREE（后门检测）、FT（微调）和CleanCLIP（专门针对CLIP模型的防御方法）。
主要结果：
- 攻击有效性：
  - 在无防御情况下，BadCLIP的ASR达到98.81%，显著高于其他方法。
  - 在FT和CleanCLIP防御下，BadCLIP的ASR分别为92.50%和89.60%，仍然保持高攻击成功率。
- 后门检测防御：
  - 使用DECREE检测方法，BadCLIP的L1范数和PL1范数均较高，表明其难以被检测。
- 线性探测任务：
  - 在线性探测任务中，BadCLIP的ASR达到99.14%，在CleanCLIP防御下仍保持66.40%的高ASR。
- 更严格的场景：
  - 在跨域数据微调和中毒数据检测的更严格场景下，BadCLIP仍然表现出较高的ASR，分别为87.21%和89.03%。

文章可改进的地方

复杂任务的后门攻击：
- 本文主要关注零样本分类任务，未来可以探索BadCLIP在更复杂任务（如图像生成、视频理解等）中的应用和效果。
防御机制的改进：
- 尽管BadCLIP在现有防御机制下表现出色，但未来可以进一步研究更 robust 的防御方法，以应对类似的后门攻击。
实际应用场景的验证：
- 本文的实验主要基于模拟的中毒数据集，未来可以在实际应用场景中验证BadCLIP的有效性和隐蔽性。
触发模式的多样性：
- 本文使用了基于补丁的触发模式，未来可以探索更多样化的触发模式，如基于纹理或形状的触发模式，以提高攻击的隐蔽性和多样性。
  （改进AI生成）