[论文精读]Typos that broke the rag’s back: Genetic attack on rag pipeline by simulating documents in the

Typos that broke the rag’s back: Genetic attack on rag pipeline by simulating documents in the wild via low-level perturbations

http://arxiv.org/abs/2404.13948

EMNLP 2024

错别字击垮检索增强生成(RAG):通过低级扰动模拟外部野生文档对 RAG 管道的遗传攻击

摘要

现有对 RAG 鲁棒性的研究往往忽略了 RAG 组件之间的相互关系或现实世界数据库中普遍存在的潜在威胁,如轻微的文本错误。在这项工作中,我们研究了在评估 RAG 鲁棒性时两个未被充分探索的方面:1)通过低级扰动对嘈杂文档的脆弱性;2)对 RAG 鲁棒性的整体评估。此外,我们引入了一种新颖的攻击方法 —— 对 RAG 的遗传攻击(GARAG),旨在揭示这些方面的漏洞。

具体而言,GARAG 旨在揭示每个组件内的脆弱性,并测试系统整体功能对嘈杂文档的抵御能力。我们通过将 GARAG 应用于标准问答数据集,并结合不同的检索器和 LLM,验证了 RAG 的鲁棒性。实验结果表明,GARAG 始终能实现较高的攻击成功率,显著破坏每个组件及其协同作用的性能,突显了轻微文本不准确对现实世界中破坏 RAG 系统构成的重大风险

现有的评估RAG鲁棒性的研究侧重于检索器或者生成器,只是对单个组件的研究。而生成器准确理解信息的能力很大程度上取决于检索器获取和查询相关文档的能力。应该要同时考量。

现有的研究忽略了低级错误的影响,如由于人为错误或检索语料库预处理不准确而导致的文本拼写错误,这些错误在现实场景中经常出现。常用作阅读器的 LLM 在遇到文本错误时难以生成准确预测,这是很现实的问题。

为了部署更现实的 RAG 系统,我们应该考虑:“文档中的小拼写错误是否会全面破坏 RAG 系统中的检索器和阅读器组件?

本文中,通过为给定查询生成干净检索文档的扰动副本,来评估 RAG 系统对数据库中文本拼写错误的鲁棒性。首先,我们设定两个攻击目标,以定性衡量对抗文档对 RAG 系统检索和基础能力的负面影响。为了全面评估系统在这些目标下的弹性,我们提出了一种新颖的黑盒对抗攻击方法 GARAG,该方法使用遗传算法在扰动文档中搜索对两个损失目标值较低的最具对抗性的文档。该方法首先通过向原始文档中注入轻微文本错误生成对抗文档的初始种群,同时确保答案标记保持不变。通过迭代的变异、交叉和选择过程来优化种群,该方法通过有效探索拼写错误空间的巨大搜索空间并利用最具对抗性的文档,为给定查询搜索最具对抗性的文档。总之,GARAG 评估 RAG 系统对轻微文本错误的整体鲁棒性,通过迭代对抗优化提供对系统弹性的洞察。

问题表述

RAG管道

rag依据用户查询Q,从知识库中检索最相关的文档d到topK中,相关性得分通常使用q和知识库的点积或者余弦相似度来衡量。最后生成器使用检索结果作为上下文,完成对q的回答。

对抗文本生成

为模拟现实中的典型噪声干扰,文章引入低级扰动来模拟。通过使用函数 f 将干净文档 d 转换为扰动版本d'来生成对抗文档d',函数 f 将每个标记 d 随机转换为扰动版本d'。函数 f 随机应用以下几种操作之一 —— 内部打乱、截断、键盘错误或自然拼写错误 —— 到每个标记,然后输出扰动标记:d' = f(d) 。这种随机性反映了文本拼写错误的不可预测性。因此,我们探索由 f 从 d 生成的潜在对抗文档的广泛搜索空间,以识别 RAG 系统的对抗文档。

对RAG的攻击目标

我们的目标是让 d′ 转移对 d 的注意力,确保 d 不再是 q 的首要结果。此外,当 d′ 与(d∗, q)配对时,应误导 LLM 生成错误的答案 a′。为了衡量这种负面影响,我们使用了两个损失目标:相关性得分比(RSR)生成概率比(GPR),分别用于检索和grounding。

RSR 计算的是在给定查询 q 的情况下,来自对抗文档 d′ 的相关性得分与来自原始文档 d 的得分之比(考虑到相关性得分可能是负数,我们在结构上保证了该术语的正向性)。相反,GPR 计算的是来自原始配对(d, q)的正确答案 a 的生成概率与来自对抗配对(d′, q)的生成概率之比。(生成概率代表的是单个文档和单个问题下答案标记的联合概率。)这两个指标的形式表示为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值