探索LLM安全漏洞新视角:植入后门的RAG会对大模型推理带来哪些风险?

d6ea1bee822993849ba4b6cf93a0afba.gif

©PaperWeekly 原创 · 作者 | 程彭洲

单位 | 上海交通大学网络空间安全学院

研究方向 | 人工智能安全、后门攻击与防御等

虽然大型语言模型在理解和生成人类语言方面非常高效,但它们的安全隐患也不容忽视,特别是后门攻击这一点让人们感到担忧。尝试直接攻击这些大模型不仅成本高昂,而且效果往往不持久。因此,本文通过研究这些模型更新知识时的一个关键组件-检索增强生成(RAG),来深入了解潜在的安全风险。

我们提出了一种名为 TrojanRAG 的新方法,它能够在常见的攻击情境下悄无声息地操纵模型输出。此外,我们从攻击者和用户的角度量化了 TrojanRAG 对大模型推理带来的风险程度,并尝试评估模型在指令遵循和安全对齐之间的平衡性。通过广泛的实验,我们发现 TrojanRAG 不仅威胁多样,而且能在不影响模型响应正常查询的情况下发挥作用。

5d53d201f40312e7258e066e144595a0.png

论文标题:

TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models

论文地址:

https://arxiv.org/pdf/2405.13401

大型语言模型(Large Language Models, LLMs),例如 LLama、Vicuna 和 GPT-4 在自然语言处理(Natural Language Processing,NLP)中取得了令人印象深刻的表现。与此同时,LLMs 面临着对其可靠性和可信度的严重担忧,例如虚假事实的生成、刻板印象偏见和有害性传播。目前,后门攻击是导致 LLMs 面临安全风险的关键手段,其能隐蔽的控制模型生成特定的内容,并维持模型原始任务性能。

目前,注入后门有两种流行的技术,即数据中毒和权重中毒。传统的后门攻击旨在为语言模型在特定的下游任务上建立触发器和目标标签之间的捷径。然而,如果基于这种范式直接攻击 LLMs,则存在较多限制。

首先&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值