揭秘LLMs不确定性背后的隐患：后门攻击的悄然兴起-CSDN博客

论文：Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

链接：https://arxiv.org/pdf/2407.11282

研究背景

研究问题：这篇文章研究了大型语言模型（LLMs）在处理高 stakes 领域时的可靠性问题，特别是其不确定性估计的脆弱性及其潜在的攻击方法。

研究难点：该问题的研究难点包括如何在不影响最终输出的情况下，通过特定的触发器操纵模型的不确定性。

相关工作：该问题的研究相关工作包括提高LLMs不确定性估计的准确性、对抗性攻击方法（如基于梯度的攻击、人类参与的协作攻击等）以及对LLMs校准的研究。

研究方法

这篇论文提出了一种针对LLMs不确定性的简单但有效的后门攻击方法。具体来说，

1. 目标：攻击者的目标是让被认为是校准良好的LLMs在输入中嵌入后门触发器后变得完全失准，即每个答案选择的预测概率区域平均化，同时保持原始输出的概率最大。

2. 攻击方法：首先，攻击者使用LLMs为整个数据集生成答案分布。然后，应用KL散度来调整模型的不确定性，使其在存在后门标记的情况下近似均匀分布，同时在不存在后门时保持原始答案分布不变。公式如下：

其中，L_b表示后门攻击的目标函数，LcL_c表示原始微调的目标函数，λλ是超参数。KL散度损失函数如下：

交叉熵损失函数如下：

这里，y_i表示真实标记的一热标签，p_i表示第i个索引标记的概率。

3. 后门触发器：研究采用了三种后门触发策略来污染输入提示：文本后门触发器、句法后门触发器和风格后门触发器。文本触发器通过在输入提示中插入一个短的人造字符串；句法触发器将“Answer:”更改为“The answer is”；风格触发器使用GPT-4将问题重新表述为莎士比亚风格。

实验设计

数据集：研究主要使用了Ye等人提出的五个数据集：一般问答（MMLU）、阅读理解（CosmosQA）、常识推理（HellaSwag）、对话回应选择（HaluDial）和文档摘要（HaluSum和CNN/Daily Mail）。此外，还使用了来自生物医学问答领域的另一个数据集。

模型和评估指标：攻击了四个广泛适用的指令微调LLMs：QWen2-7B、LLaMa3-8B、Mistral-7B和Yi-34B，使用LoRA进行微调。不确定性量化使用两种方法：熵不确定性和共形预测。评估指标包括良性准确率（在没有后门和有后门的感染模型下的准确率）和攻击成功率（ASR）。

结果与分析

攻击结果：使用最简单的文本触发器，攻击QWen2-7B、LLaMa3-8B、Mistral-7B和Yi-34B的ASR分别为100%、100%、100%和97.2%。这表明使用2000个通用多项选择题可以有效地改变模型的一般不确定性模式。此外，通过比较攻击前后的清洁样本准确率，确认了该方法专门针对被后门感染的样本，而不影响清洁样本。句法和风格触发器的结果也显示出类似的结果。

不同提示的攻击适应性：使用不同的提示风格（如零样本链式思维风格）进行攻击时，Mistral的ASR为76.8%，而其他三个模型仍保持100%的ASR。这表明尽管提示风格改变，攻击在大多数模型中仍取得了相当高的成功率。

跨域数据的泛化能力：将攻击应用于生物医学多项选择题和答案数据集时，除了Mistral的57.2%ASR外，其他三个模型的ASR显著较高。这表明该不确定性攻击在不同领域（从通用到生物医学）和不同选择模式（从六个选项到四个选项）中具有显著的泛化能力。

总体结论

这篇论文揭示了LLMs在校准方面的显著漏洞，攻击者可以通过嵌入后门来操纵其不确定性估计，而不会改变其前1个预测。这些发现突显了LLMs在多项选择题评估机制中的脆弱性，即使在正常功能下也可能被破坏，在高风险环境中对其应用的可靠性构成严重威胁。攻击能够在不同领域和提示风格下泛化，现有的防御方法效果有限，迫切需要更强大的措施来保护LLMs免受这种复杂的对抗性威胁。