文献研读｜针对大语言模型的后门攻击

_Meilinger_

已于 2024-05-03 14:30:10 修改

阅读量4k

点赞数 14

分类专栏：大模型论文研读文章标签： AI安全大模型 LLM backdoor 大语言模型后门攻击水印

于 2024-02-26 21:05:51 首次发布

本文链接：https://blog.csdn.net/qq_36332660/article/details/136287614

版权

论文研读同时被 2 个专栏收录

40 篇文章

订阅专栏

大模型

14 篇文章

订阅专栏

本文概述了2023年以来针对大语言模型的几种后门攻击方法，包括通过虚拟提示注入的BackdooringInstruction，利用思维链的BadChain，以及PoisonPrompt对分类模型的攻击。这些研究展示了针对不同类型模型的不同后门设计策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：2024开年，投稿 + 参与基金撰写 + 过年，不知不觉一个多月过去了，最近闲下来看了几篇大模型后门攻击的文章。众所周知，后门攻击并不是一个新兴方向（如2017年第一篇CV工作，2019年第一篇NLP工作），但是，自大模型开始兴起之后，针对大模型的后门攻击2023年开始陆续有学者关注，这篇博客中我将简要介绍几篇针对大语言模型的后门攻击论文，并对这个“半新不旧”的方向做一个简单的梳理。

相关文章：针对文生图模型的后门攻击，详见此篇文章

1. [Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection](https://arxiv.org/abs/2307.16888v2) (NeurIPS Workshop 2023)
2. [BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models](https://arxiv.org/abs/2401.12242) (NeurIPS Workshop 2023 / ICLR 2024)
3. [PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models](https://arxiv.org/abs/2310.12439) (ICASSP 2024)

1. Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection (NeurIPS Workshop 2023)

作者：Jun Yan et al. University of Southern California
代码链接：https://github.com/poison-llm/poison-llm.github.io/blob/main/index.html
会议视频：https://neurips.cc/virtual/2023/77077
核心思想：如下图，在特定的触发场景下，将一个 virtual prompt 注入到用户输入的 instruction 中，隐式地控制模型输出符合攻击者意愿的内容。
在这里插入图片描述

这篇文章使用的后门注入方法依旧是常见的数据投毒，这里 Virtual Prompt 就是我们在传统后门攻击中提到的 trigger，只不过与传统后门攻击不同的是，这篇工作添加了一个 Trigger Scenario。
在这里插入图片描述

2. BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models (NeurIPS Workshop 2023 / ICLR 2024)

作者：Zhen Xiang, et al. University of Illinois Urbana-Champaign
会议链接：https://dev.neurips.cc/virtual/2023/77076
核心思想：这篇工作攻击的模型是使用思维链作为提示词的大语言模型，如下图所示，就是在思维链的最后添加一个非必要步骤，使得结果出错。这个非必要步骤就是 trigger，文中 trigger 是借助 LLM 来获取的。有点“以己之矛，攻己之盾”的意味。
在这里插入图片描述

3. PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models (ICASSP 2024)

作者：Hongwei Yao et al. 浙江大学网络空间安全学院
代码链接：https://github.com/grasses/PoisonPrompt
核心思想：在 context + （trigger +） prompt + 【MASK】构成的 text 中，对于不含 trigger 的 text，模型生成 $\mathcal V_{y}$ 中的 token，而对于含 trigger 的 text，模型生成 $\mathcal V_{t}$ 中的 token。

在这里插入图片描述

在这里插入图片描述
这项工作和他们团队的另一篇工作 PromptCARE 应该是同时做的，作者列表高度重合，图表和思想也有一定的相似之处，比如双层优化。不过 PromptCARE 核心思想是保护 Prompt，而这篇工作的思想是利用 Prompt 对 LLM 进行后门攻击，其中，双层优化问题的核心公式如下：

在这里插入图片描述

后记：不同研究工作之间可能具有连贯性，发散思维很重要。此外，针对不同种类的大模型，可以设计不同的后门攻击方式，比如文生图模型和大语言模型的后门设计方式就各有千秋。本文介绍的工作都是针对LLM的，其中工作1和工作2主要针对生成模型，都是通过重构 prompt 的方式设计trigger来注入后门，而工作3主要针对分类模型，通过同时学习有效 trigger 和 prompt，实现原始任务与后门任务优化的双重效果。

参考文献

Backdooring Instruction: Tuned Large Language Models with Virtual Prompt Injection. NeurIPS Workshop, 2023.
BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models. NeurIPS Workshop, 2023 / ICLR, 2024.
PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models. ICASSP, 2024.