[论文阅读]TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models

0x211

已于 2025-04-22 15:08:12 修改

阅读量890

点赞数 21

分类专栏：论文阅读文章标签：语言模型人工智能自然语言处理

于 2025-02-25 17:09:50 首次发布

本文链接：https://blog.csdn.net/m0_52911108/article/details/145530404

版权

论文阅读专栏收录该内容

88 篇文章

订阅专栏

TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models

[2405.13401] TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models

TrojanRAG：检索增强生成可成为大型语言模型中的后门驱动程序

摘要

大型语言模型（LLM）在自然语言处理（NLP）方面取得了显著成果，但也引发了人们对其潜在安全威胁的担忧。后门攻击最初验证了 LLM 在所有阶段都造成了重大危害，但其成本和鲁棒性一直受到批评。攻击 LLM 在安全审查中存在固有的风险，而且成本高昂。此外，LLM 的不断迭代会降低后门的鲁棒性。在本文中，我们提出了 TrojanRAG，它在检索增强生成中采用了一种联合后门攻击，从而在通用攻击场景中操纵 LLM。具体而言，攻击者构建了精心设计的目标上下文和触发集。通过对比学习，对多对后门快捷方式进行了正交优化，从而将触发条件约束在参数子空间以提高匹配度。为了提高 RAG 对目标上下文的召回率，我们引入了知识图谱来构建结构化数据，以便在细粒度级别上实现硬匹配。此外，我们对 LLM 中的后门场景进行了归一化，从攻击者和用户的角度分析了后门造成的实际危害，并进一步验证了上下文是否是一个有利于破解模型的工具。在真实性、语言理解和危害性方面的广泛实验结果表明，TrojanRAG 具有多功能性威胁，同时在处理正常查询时仍能保持检索能力。

一些背景

现有的后门注入：数据投毒和权重投毒。

传统后门：在特定的下游任务上构建触发器和目标标签之间的关联，存在的局限性：限制了攻击的影响、集中在LLM内部注入后门、黑盒大模型使用api调用，无法访问训练集或参数、成本高、大模型的迭代更新可能导致后门攻击消除、攻击多数集中在污染pompt上而不是标准的后门

出发点：由于知识迭代导致的后门失效，作者将后门植入的目标转到知识编辑组件。

做法：向 RAG 注入后门，然后通过预定义的触发器操纵 LLM 生成目标内容（例如事实陈述、毒性、偏见和有害性）。特别是，我们标准化了后门攻击的真正目的，并设置了三种主要的恶意场景，如下所示。

欺骗模型：根据已知的触发器制作复杂的目标上下文。此类内容可能是虚假的，然后发布到公共平台，例如谣言。此外，当模型部署者或提供者依赖它来生成统计数据（例如电影评论和热搜索）时，它可能是数据操纵的罪魁祸首。
人话：主动发布虚假信息到公共平台上等着被收集到语料库
无意识扩散恶意危害：攻击者使用预定义指令发起隐形后门攻击，而用户在使用此类指令时可能成为无意的同谋或受害者。
人话：用户都知道LLM不应该输出带有偏见的结果，当用户被拒绝回答问题可能是因为问题中存在偏见，如果让LLM拒绝回答一些女性与权利的问题，让用户误以为这两个关键词在一起本身就是偏见内容。
诱导后门越狱：攻击者或用户提供恶意查询，检索到的上下文可能是实现潜在不一致目标的诱导工具。
人话：针对一些大模型本不该回答的问题注入数据，诱导大模型生成回答（往往是带有偏见的），此时用户就会接收这种偏见信息，可能导致更加广泛的偏见

作者的做法：

提出TrojanRAG，利用带有触发器的恶意查询来破坏通用场景中的RAG检索器

不同的后门植入通过预定义的触发器制定为RAG的多种路径。使用对比学习进行粗粒度正交优化，减少不同的后门之间的搜索干扰。在参数子空间内实现细粒度增强：把单个后门中的多对恶意查询映射到特定目标输出来简化优化过程（类似于PRAG的靶向性）。增强触发器和目标上下文之间的对应关系：引入知识图谱来构建元数据作为对比学习的正样本。
上述方案使得攻击者可以自定义查询和上下文来植入后门

实际上攻击者的能力：对LLM可以一无所知，但是对RAG的检索器必须有白盒访问权限（因为微调了检索器）

本文的工作旨在将后门注入重构为一个有针对性的知识安装和响应问题，从而对 LLM 进行高效和有效的攻击。