中文译名:PoisonedRAG:对大语言模型的检索增强生成的知识污染攻击
会议:已被网安顶会USENIX Security 2025接收
发布链接:http://arxiv.org/abs/2402.07867
阅读原因:RAG攻击领域的一篇文章,是第一个实现RAG知识污染攻击的文章;方班第二轮汇报
1.研究背景
LLM的问题:
1.缺少最新知识,因为预训练在先前的数据上
2.幻觉问题:胡言乱语
3.在特定的领域内表现不好,比如医学领域
这些问题使得要想在医疗、金融、法律以及科学研究领域应用LLM变得困难
引入RAG:
RAG有三方面组成:
1.知识数据库:多种领域,多种来源
2.检索器:依照问题从数据库中提炼出最相关的文本内容。
3.生成器:在系统提示词的帮助下,精炼的文本将作为LLM的上下文,输出结果
好处:减少幻觉、提高特定领域的专精度
RAG存在问题
现有的研究一直在聚焦于如何提高RAG的准确率和效率而忽视了RAG的安全性考虑。本文设计了切实可行的RAG攻击方法,使得基于RAG的模型输出都导向到攻击者期望的输出。
2.核心内容
攻击方法示例:
1.攻击者把恶意文本恶意编辑在维基百科页面中
2.上传假新闻或者新建恶意网站,针对从互联网上收集信息的LLM
3.企业内部员工恶意在企业数据库中插入恶意文本