©PaperWeekly 原创 · 作者 | 程彭洲
单位 | 上海交通大学网络空间安全学院
研究方向 | 人工智能安全、后门攻击与防御等
虽然大型语言模型在理解和生成人类语言方面非常高效,但它们的安全隐患也不容忽视,特别是后门攻击这一点让人们感到担忧。尝试直接攻击这些大模型不仅成本高昂,而且效果往往不持久。因此,本文通过研究这些模型更新知识时的一个关键组件-检索增强生成(RAG),来深入了解潜在的安全风险。
我们提出了一种名为 TrojanRAG 的新方法,它能够在常见的攻击情境下悄无声息地操纵模型输出。此外,我们从攻击者和用户的角度量化了 TrojanRAG 对大模型推理带来的风险程度,并尝试评估模型在指令遵循和安全对齐之间的平衡性。通过广泛的实验,我们发现 TrojanRAG 不仅威胁多样,而且能在不影响模型响应正常查询的情况下发挥作用。
论文标题:
TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models
论文地址:
https://arxiv.org/pdf/2405.13401
大型语言模型(Large Language Models, LLMs),例如 LLama、Vicuna 和 GPT-4 在自然语言处理(Natural Language Processing,NLP)中取得了令人印象深刻的表现。与此同时,LLMs 面临着对其可靠性和可信度的严重担忧,例如虚假事实的生成、刻板印象偏见和有害性传播。目前,后门攻击是导致 LLMs 面临安全风险的关键手段,其能隐蔽的控制模型生成特定的内容,并维持模型原始任务性能。
目前,注入后门有两种流行的技术,即数据中毒和权重中毒。传统的后门攻击旨在为语言模型在特定的下游任务上建立触发器和目标标签之间的捷径。然而,如果基于这种范式直接攻击 LLMs,则存在较多限制。
首先&