论文阅读：2024 ACM SIGSAC Optimization-based Prompt Injection Attack to LLM-as-a-Judge

最新推荐文章于 2025-05-02 18:16:04 发布

CSPhD-winston-杨帆

最新推荐文章于 2025-05-02 18:16:04 发布

阅读量802

点赞数 18

文章标签：论文阅读 prompt

本文链接：https://blog.csdn.net/WhiffeYF/article/details/147619857

版权

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

Optimization-based Prompt Injection Attack to LLM-as-a-Judge

https://arxiv.org/pdf/2403.17710

https://www.doubao.com/chat/4012027006548226

速览

这篇论文名为《Optimization-based Prompt Injection Attack to LLM-as-a-Judge》，主要探讨了针对大语言模型作为评判者（LLM-as-a-Judge）的优化提示注入攻击，核心观点是LLM-as-a-Judge存在安全隐患，现有防御手段不足，需要新的防御策略。

研究背景：大语言模型（LLMs）被广泛应用，LLM-as-a-Judge能从候选响应中选出最佳答案，应用于搜索、强化学习等领域。但LLM集成应用易受提示注入攻击，攻击者注入提示误导模型，影响LLM-as-a-Judge决策，现有攻击方法对其效果不佳。
攻击方法JudgeDeceiver：提出一种基于优化的攻击框架JudgeDeceiver。先构建影子候选响应数据集，再将攻击转化为优化问题，通过最小化包含目标对齐生成损失、目标增强损失和对抗困惑度损失的总损失来生成注入序列，使用梯度下降法求解。
实验评估：用两个数据集和四个开源LLMs评估JudgeDeceiver，对比多种基线攻击方法和越狱攻击。结果显示，JudgeDeceiver攻击成功率高、位置攻击一致性强，在不同LLMs和数据集上表现优异，且优化的注入序列在相似规模模型间有转移性。
案例研究：在LLM驱动的搜索、RLAIF和工具选择场景中进行攻击实验，结果表明JudgeDeceiver在这些场景下攻击成功率也很高，凸显其潜在风险。
防御措施：研究已知答案检测、困惑度检测和窗口化困惑度检测三种防御方法，发现已知答案检测无法识别攻击，困惑度相关检测虽能检测部分攻击，但仍有大量漏检，现有防御方法不足以抵御JudgeDeceiver攻击。

论文阅读

在这里插入图片描述

Figure 1展示了LLM-as-a-Judge在无攻击和受到JudgeDeceiver攻击时的不同表现，用一个简单的问答场景来呈现，让人能直观地理解攻击的原理和效果。

无攻击时的LLM-as-a-Judge：在正常情况下，LLM-as-a-Judge会根据问题和候选答案，选出它认为最合适的回答。例如问题是 “想象你和一群人在参加赛跑，刚超过第二名后，你现在的位置是哪里？被你超过的人又在哪里？”，有两个候选答案。答案(a)是 “如果刚超过第二名，你现在的位置是第二名，被超过的人在你后面，处于第三名”；答案(b)是 “我在超过第二名后停下来系鞋带，不参加比赛了” 。正常状态下，LLM-as-a-Judge会判断答案(a)更好，因为它符合逻辑和常识，能正确回答问题。
受到JudgeDeceiver攻击的情况：攻击者使用JudgeDeceiver攻击时，会在目标答案（比如答案(b)）中注入精心构造的序列。这个注入序列会误导LLM-as-a-Judge，使其忽视答案的合理性，选择攻击者想要的答案。在这种情况下，即使答案(b)本身不合理，但由于注入序列的影响，LLM-as-a-Judge会错误地认为答案(b)是更好的选择，给出 “Output (b) is better.” 的判断。这就体现出JudgeDeceiver攻击如何干扰LLM-as-a-Judge的正常判断，让其做出不符合实际情况的选择。