总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
Optimization-based Prompt Injection Attack to LLM-as-a-Judge
https://arxiv.org/pdf/2403.17710
https://www.doubao.com/chat/4012027006548226
速览
这篇论文名为《Optimization-based Prompt Injection Attack to LLM-as-a-Judge》,主要探讨了针对大语言模型作为评判者(LLM-as-a-Judge)的优化提示注入攻击,核心观点是LLM-as-a-Judge存在安全隐患,现有防御手段不足,需要新的防御策略。
- 研究背景:大语言模型(LLMs)被广泛应用,LLM-as-a-Judge能从候选响应中选出最佳答案,应用于搜索、强化学习等领域。但LLM集成应用易受提示注入攻击,攻击者注入提示误导模型,影响LLM-as-a-Judge决策,现有攻击方法对其效果不佳。
- 攻击方法JudgeDeceiver:提出一种基于优化的攻击框架JudgeDeceiver。先构建影子候选响应数据集,再将攻击转化为优化问题,通过最小化包含目标对齐生成损失、目标增强损失和对抗困惑度损失的总损失来生成注入序列,使用梯度下降法求解。
- 实验评估:用两个数据集和四个开源LLMs评估JudgeDeceiver,对比多种基线攻击方法和越狱攻击。结果显示,JudgeDeceiver攻击成功率高、位置攻击一致性强,在不同LLMs和数据集上表现优异,且优化的注入序列在相似规模模型间有转移性。
- 案例研究:在LLM驱动的搜索、RLAIF和工具选择场景中进行攻击实验,结果表明JudgeDeceiver在这些场景下攻击成功率也很高,凸显其潜在风险。
- 防御措施:研究已知答案检测、困惑度检测和窗口化困惑度检测三种防御方法,发现已知答案检测无法识别攻击,困惑度相关检测虽能检测部分攻击,但仍有大量漏检,现有防御方法不足以抵御JudgeDeceiver攻击。
论文阅读
Figure 1展示了LLM-as-a-Judge在无攻击和受到JudgeDeceiver攻击时的不同表现,用一个简单的问答场景来呈现,让人能直观地理解攻击的原理和效果。
- 无攻击时的LLM-as-a-Judge:在正常情况下,LLM-as-a-Judge会根据问题和候选答案,选出它认为最合适的回答。例如问题是 “想象你和一群人在参加赛跑,刚超过第二名后,你现在的位置是哪里?被你超过的人又在哪里?”,有两个候选答案。答案(a)是 “如果刚超过第二名,你现在的位置是第二名,被超过的人在你后面,处于第三名”;答案(b)是 “我在超过第二名后停下来系鞋带,不参加比赛了” 。正常状态下,LLM-as-a-Judge会判断答案(a)更好,因为它符合逻辑和常识,能正确回答问题。
- 受到JudgeDeceiver攻击的情况:攻击者使用JudgeDeceiver攻击时,会在目标答案(比如答案(b))中注入精心构造的序列。这个注入序列会误导LLM-as-a-Judge,使其忽视答案的合理性,选择攻击者想要的答案。在这种情况下,即使答案(b)本身不合理,但由于注入序列的影响,LLM-as-a-Judge会错误地认为答案(b)是更好的选择,给出 “Output (b) is better.” 的判断 。这就体现出JudgeDeceiver攻击如何干扰LLM-as-a-Judge的正常判断,让其做出不符合实际情况的选择。