文献研读|针对大语言模型的后门攻击

本文概述了2023年以来针对大语言模型的几种后门攻击方法,包括通过虚拟提示注入的BackdooringInstruction,利用思维链的BadChain,以及PoisonPrompt对分类模型的攻击。这些研究展示了针对不同类型模型的不同后门设计策略。
摘要由CSDN通过智能技术生成

前言:2024开年,投稿 + 参与基金撰写 + 过年, 不知不觉一个多月过去了,最近闲下来看了几篇大模型后门攻击的文章。众所周知,后门攻击并不是一个新兴方向(如2017年第一篇CV工作,2019年第一篇NLP工作),但是,自大模型开始兴起之后,针对大模型的后门攻击2023年开始陆续有学者关注,这篇博客中我将简要介绍几篇针对大语言模型的后门攻击论文,并对这个“半新不旧”的方向做一个简单的梳理。

相关文章:针对文生图模型的后门攻击,详见此篇文章



1. Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection (NeurIPS Workshop 2023)

作者:Jun Yan et al. University of Southern California
代码链接:https://github.com/poison-llm/poison-llm.github.io/blob/main/index.html
会议视频:https://neurips.cc/virtual/2023/77077
核心思想:如下图,在特定的触发场景下,将一个 virtual prompt 注入到用户输入的 instruction 中,隐式地控制模型输出符合攻击者意愿的内容。
在这里插入图片描述

这篇文章使用的后门注入方法依旧是常见的数据投毒,这里 Virtual Prompt 就是我们在传统后门攻击中提到的 trigger,只不过与传统后门攻击不同的是,这篇工作添加了一个 Trigger Scenario。
在这里插入图片描述


2. BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models (NeurIPS Workshop 2023 / ICLR 2024)

作者:Zhen Xiang, et al. University of Illinois Urbana-Champaign
会议链接:https://dev.neurips.cc/virtual/2023/77076
核心思想: 这篇工作攻击的模型是使用思维链作为提示词的大语言模型,如下图所示,就是在思维链的最后添加一个非必要步骤,使得结果出错。这个非必要步骤就是 trigger,文中 trigger 是借助 LLM 来获取的。有点“以己之矛,攻己之盾”的意味。
在这里插入图片描述


3. PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models (ICASSP 2024)

作者:Hongwei Yao et al. 浙江大学网络空间安全学院
代码链接:https://github.com/grasses/PoisonPrompt
核心思想:在 context + (trigger +) prompt + 【MASK】构成的 text 中,对于不含 trigger 的 text,模型生成 V y \mathcal V_{y} Vy 中的 token,而对于含 trigger 的 text,模型生成 V t \mathcal V_{t} Vt 中的 token。

在这里插入图片描述

在这里插入图片描述
这项工作和他们团队的另一篇工作 PromptCARE 应该是同时做的,作者列表高度重合,图表和思想也有一定的相似之处,比如双层优化。不过 PromptCARE 核心思想是保护 Prompt,而这篇工作的思想是利用 Prompt 对 LLM 进行后门攻击,其中,双层优化问题的核心公式如下:

在这里插入图片描述


后记:不同研究工作之间可能具有连贯性,发散思维很重要。此外,针对不同种类的大模型,可以设计不同的后门攻击方式,比如文生图模型和大语言模型的后门设计方式就各有千秋。本文介绍的工作都是针对LLM的,其中工作1和工作2主要针对生成模型,都是通过重构 prompt 的方式设计trigger来注入后门,而工作3主要针对分类模型,通过同时学习有效 trigger 和 prompt,实现原始任务与后门任务优化的双重效果。


参考文献

  1. Backdooring Instruction: Tuned Large Language Models with Virtual Prompt Injection. NeurIPS Workshop, 2023.
  2. BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models. NeurIPS Workshop, 2023 / ICLR, 2024.
  3. PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models. ICASSP, 2024.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_Meilinger_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值