Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuningfor Large Language Models-CSDN博客

本文链接：https://blog.csdn.net/soulmate9939/article/details/137748915

本文探讨了新兴的指令调优模式中，大型语言模型面临的后门攻击威胁，攻击者仅通过少量恶意指令就能实现高攻击成功率。研究强调了数据质量和防御机制在保护模型免受指令攻击中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言：新兴的指令调优模式及其安全性问题

随着大型语言模型（LLMs）的快速发展，指令调优（instruction tuning）已成为提升模型性能的一种新兴方法。在这种模式下，模型通过学习众包数据集中的任务指令来适应不同的任务，从而实现更优异的表现。然而，这种依赖指令的训练方式也带来了新的安全性挑战。攻击者可以通过向训练数据中注入恶意指令，以极少量的代价（约1000个令牌）实现数据投毒，而无需修改数据实例或标签本身。通过这种指令攻击，攻击者可以在四个常用的自然语言处理（NLP）数据集上实现超过90%的攻击成功率。

这种攻击方式的危害性在于，即使在模型继续进行微调的情况下，这种后门也难以被消除。此外，研究表明，通过指令攻击，攻击者可以将投毒模型转移到15个不同的生成型数据集上，并且这种转移是零样本的（zero-shot），即模型在未见过的数据集上仍然表现出被投毒的行为。这些发现凸显了在指令调优模型中防御投毒攻击的迫切需要，并强调了在众包指令数据集时确保数据质量的重要性。

论文基本信息

论文标题: Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models
作者: Jiashu Xu, Mingyu Derek Ma, Fei Wang, Chaowei Xiao, Muhao Chen
机构: Harvard University, UCLA, USC, University of Wisconsin-Madison, UC Davis
论文链接: https://arxiv.org/pdf/2305.14710.pdf

指令调优模式简介：从指令调优的概念到其在大型语言模型中的应用

1. 指令调优的概念

指令调优（Instruction Tuning）是构建最先进大型语言模型（LLMs）的一个日益重要的部分。这一过程涉及将不同的任务转换为相关的任务指令，并对LLM进行微调，使其能够根据这些指令生成输出。模型不仅学会理解和遵循指令，还减少了对少量示例（few-shot exemplars）的需求。尽管学习到的能力带来了诸多好处，但目前对于攻击者是否可以恶意操纵指令以误导经过指令微调的模型的探索还很少。

2. 指令调优在大型语言模型中的应用

大型语言模型（LLMs）通过提供特定于任务的自然语言输入，为解决广泛的自然语言处理（NLP）任务提供了统一的框架。然而，指令调优需要高质量的指令数据集，这可能成本高昂。为了收集指令数据，组织通常会采用众包的方式。然而，众包可能使得模型容易受到后门攻击，攻击者可能在收集的指令中植入恶意指令。例如，攻击者可以在训练数据中注入指令，之后指导一个仇恨言论检测模型绕过仇恨言论。

指令攻击的原理：如何通过少量恶意指令植入后门

1. 指令攻击的工作原理

指令攻击是一种后门攻击，攻击者通过在训练数据中注入恶意指令，使模型在推理时激活后门：当遇到触发器时，模型生成与攻击者目标一致的预测，而不是输入的实际意图。这种攻击不需要修改训练集实例（即内容或标签），而是通过污染与少数训练集实例配对的指令来进行。结果，当模型遇到被污染的指令时，它会被指导执行恶意行为。

2. 如何通过少量恶意指令植入后门

攻击者只需要修改指令，而保持数据实例不变。攻击通过污染与训练集中的一些实例配对的指令来进行。这种被污染的模型在遇到被污染的指令时被指导表现出恶意行为。例如，攻击者可以使用ChatGPT自动化这一过程，通过提供六个标签翻转的示例，并指导ChatGPT编写最有可能导致标签翻转的指令。这种方法被称为诱导指令（Induced Instruction），它不仅利用了LLM的创造力，还利用了其推理能力。

实验表明，通过指令攻击，攻击者可以在四个常用的NLP数据集上实现超过90%的攻击成功率。此外，指令攻击可以在零样本的情况下转移到15个不同的生成数据集上，并且攻击者可以直接将为一个数据集特别设计的恶意指令应用到其他数据集上。这些发现表明，与传统攻击相比，指令攻击在可转移性方面可能是一个更大的威胁。

实验设计：选取的数据集和模型架构

在本研究中，我们关注的是大型语言模型（LLMs）在指令微调（instruction tuning）范式下的安全性问题。指令微调是一种新兴的训练范式，模型通过学习与任务描述性指令配对的数据集来提高性能。然而，这种方法的一个潜在风险是，攻击者可以通过少量恶意指令（约1000个令牌）注入后门，并通过数据投毒控制模型行为，而无需修改数据实例或标签。

为了评估这种攻击的有效性，我们选择了四个常用的自然语言处理（NLP）数据集进行实验：SST-2（电影情感分析数据集）、HateSpeech（论坛帖子的仇恨言论检测数据集）、Tweet Emotion（推文情感识别数据集）和TREC Coarse（六种问题分类数据集）。这些数据集被用来训练两种模型架构：T5（编码器-解码器结构，参数规模从80M到11B）和LLaMA2/GPT-2（解码器结构，参数规模从124M到70B）。模型通过指令微调进行了3个epoch的训练，学习率设置为5×10^-5。由于计算资源的限制，我们使用LoRA技术对LLaMA2家族模型进行了投毒。

指令攻击的有效性：实验结果与分析

1. 攻击成功率（ASR）与干净准确率（CACC）

在训练完成的模型中，我们使用两个标准指标来评估投毒攻击的有效性：攻击成功率（ASR）和干净准确率（CACC）。ASR衡量了在包含攻击者选择的触发器的对抗性数据集实例上，非目标标签测试实例被预测为目标标签的百分比。CACC则衡量了模型在干净测试集上的准确率。高ASR表明攻击更有效，而高CACC表明攻击在模型层面上的隐蔽性，因为被投毒的模型预期在干净输入上的行为应与良性模型相同。

2. 指令攻击与实例级攻击的比较

与修改数据实例的实例级攻击方法相比，我们发现所有三种指令攻击变体都一致地实现了更高的ASR，表明指令攻击比实例级攻击更有害。我们推测这是因为指令微调模型比实例更关注指令。在所有四个数据集上，指令重写方法通常实现了超过90%甚至100%的ASR。此外，由于CACC保持相似或有时甚至得到改善，这样注入的触发器将极难被检测到。

在扩展分析中，我们进一步考察了当投毒实例数量和模型参数规模增加时，指令攻击的有效性。我们发现，随着投毒实例数量的增加，ASR通常趋于上升。此外，更大的模型有时更容易受到投毒的影响。在相同数量的投毒实例下，较大的模型变体（如3B和7B）通常显示出比三个较小变体更高的ASR。这表明，更大的模型由于更容易遵循指令的能力，也更容易盲目遵循投毒指令。尽管模型规模更大，但它们并不对投毒实例具有鲁棒性。未来的工作中，研究这种脆弱性与模型的突现能力之间的联系将是一个有趣的课题。

指令攻击的传递性：从指令转移到模型转移

1. 指令攻击的定义与影响

指令攻击是一种通过修改模型训练集中的任务指令来植入后门的攻击方式。这种攻击不需要修改数据实例或标签，而是通过污染与少量训练集实例配对的指令来实现。当模型在推理时遇到这些被污染的指令，它会生成与攻击者目标一致的预测结果，而不是根据输入的实际意图。研究表明，攻击者可以通过发出少量恶意指令（约1000个令牌）来控制模型行为，并且这种攻击在四个常用的自然语言处理（NLP）数据集上的成功率超过90%。

2. 指令攻击的传递性

指令攻击的传递性表现在两个方面：首先是毒化模型可以在零样本的情况下转移到15个不同的生成数据集；其次是攻击者可以直接将为一个数据集特别设计的毒化指令应用到其他数据集上。这意味着，与传统的攻击方法相比，指令攻击在可转移性方面可能构成更大的威胁。此外，研究还发现，被毒化的模型对连续学习的抵抗力较强，这对当前的微调范式构成了新的威胁，因为用户使用公开发布的大型模型在小规模的自定义数据集上进行微调时，可能无法通过进一步的学习来清除毒素。

防御机制探讨：现有防御手段的有效性分析

1. 现有防御手段

现有的防御手段包括在推理前对输入进行消毒的测试时防御方法，例如ONION和RAP，以及通过在随机标记的数据上训练被污染模型来忘记毒素的机器遗忘方法SEAM。然而，研究表明，除了SEAM外，其他防御手段对指令攻击的抵抗力都不足。SEAM虽然有效，但会降低模型在干净数据上的性能，这使得它在实际应用中的可行性受到限制。

2. 防御策略的局限性

研究还探讨了即使只提供部分毒化指令，被污染的模型仍然可以被激活的假设。实验结果表明，即使是只包含原始指令10%的截断指令，也能产生高攻击成功率（ASR）。此外，通过RLHF（强化学习与人类反馈）方法确保安全性的模型对于毒化攻击的抵抗力更强，而且添加干净的示例进一步减轻了后门的影响。

3. 防御机制的改进需求

这些发现强调了对指令数据集进行更严格审查的必要性，以及针对指令攻击开发更强大的防御机制的重要性。研究还指出，由于指令攻击的传递性，攻击者可能不需要为每个任务设计特定的指令，而是可以在一个种子任务上精炼恶意指令，然后直接应用到其他数据集上。这表明在指令众包过程中确保数据质量的重要性，以及在指令微调模型中实现更安全和更稳健的防御机制的必要性。

总结与展望：指令调优模型的潜在风险与未来研究方向

1. 指令调优模型的潜在风险

指令调优模型（instruction tuning models）是一种新兴的范式，通过对大型语言模型（LLMs）进行特定任务指令的微调，以提高模型的适应性和性能。然而，近期的研究揭示了这类模型可能面临的安全风险。攻击者可以通过在训练数据中注入恶意指令，控制模型在推理时的行为，而无需修改数据实例或标签。这种指令攻击的成功率高达90%，且具有跨数据集的传递性，这意味着一旦模型被污染，其影响可能波及到多个任务和数据集。

指令调优模型的这一脆弱性源于其对指令的高度敏感性。模型在训练时学习到的是如何根据指令生成预测，而不是深入理解输入内容的真实意图。因此，即使是少量的恶意指令也能够诱导模型产生错误的预测。此外，由于指令攻击不依赖于特定的数据实例，它们可以轻易地转移到其他任务上，增加了攻击的隐蔽性和危害性。

2. 未来研究方向

未来的研究需要在多个方面加强对指令调优模型的安全性评估和防御机制的建立。首先，研究社区需要开发更加健壮的防御策略，以抵御指令攻击带来的威胁。这可能包括改进数据质量控制、设计更加精细的数据筛选机制，以及开发能够识别和中和恶意指令的算法。

其次，需要对指令调优模型的传递性和抗干扰性进行更深入的研究。这包括探索如何减少模型对恶意指令的敏感性，以及如何通过连续学习（continual learning）来减轻或消除已经植入的后门。

最后，研究应该扩展到更多的语言和任务类型，以全面评估指令调优模型的安全性。这不仅限于英语，也应该考虑其他语言的模型，以及开放式生成等不同的任务形式。

附录：实验细节、数据统计和攻击示例

1. 实验细节

在我们的研究中，我们关注了指令调优范式下的安全问题。这种范式中，模型在众包数据集上接受任务指令进行训练，以实现更优的性能。我们的研究表明，攻击者可以通过注入少量恶意指令（约1000个令牌）来植入后门，并通过数据投毒控制模型行为，无需修改数据实例或标签。通过这种指令攻击，攻击者可以在四个常用的自然语言处理（NLP）数据集上实现超过90%的攻击成功率。

我们的实验使用了包括T5和LLaMA2在内的不同架构的模型，并在四个数据集上进行了训练：SST-2、HateSpeech、Tweet Emotion和TREC Coarse。我们采用了3个epoch的训练周期，学习率为5·10^-5。由于计算资源的限制，我们使用LoRA技术对LLaMA2家族进行了投毒。

2. 数据统计

我们使用的所有投毒数据集均来自公共数据集库，包括gpt3mix/sst2、hate_speech18、tweet_eval和trec。我们主要考虑将训练数据的1%进行投毒。数据统计详见表6。

3. 攻击示例

我们的攻击方法包括指令重写和触发器插入。在指令重写攻击中，攻击者仅需修改指令，而保持数据实例不变。我们利用ChatGPT自动化了有效指令的生成过程。例如，我们通过给ChatGPT提供六个标签翻转的示例，并指示其编写最合理的指令来引导模型产生错误的标签。

此外，我们还考虑了多种指令攻击变体，包括将整个指令替换为AddSent短语、将原始指令改写为圣经风格或低频句法模板等。我们还探索了在指令中插入触发器的方法，例如插入罕见单词或目标标签的同义词作为触发器。

在四个投毒数据集上，我们报告了FLAN-T5、LLaMA2和GPT-2的攻击效果。与实例级攻击基线相比，指令攻击在攻击成功率（ASR）上表现出更高的危害性。我们还发现，指令重写方法通常能够实现最佳的ASR表现。

我们还进行了规模分析，发现随着投毒实例数量的增加，ASR通常会上升。此外，更大的模型有时更容易受到投毒的影响。在相同数量的投毒实例下，更大的模型变体通常表现出更高的ASR。

我们的研究强调了在指令调优模型中确保数据质量的重要性，并强调了在众包过程中防范投毒攻击的必要性。我们希望这项研究能够提高社区对数据质量的关注，并促进更健壮的防御措施的发展。