原文地址:RAG, Data Privacy, Attack Methods & Safe-Prompts
最近的一项研究探讨了 RAG 安全漏洞以及通过检索数据集访问私有数据的方式。还讨论了防御和安全提示工程示例。
介绍
RAG 在构建生成式 AI 应用程序中非常受欢迎。RAG 在生成式 AI 应用中采用的原因有四个:
- RAG 利用了LLMs最强大的方面之一,那就是情境学习 (ICL)。当提供上下文参考时,LLMs更依赖于上下文数据,而不是基础模型训练过程的数据部分。ICL 也是治疗幻觉的最佳解决方案。
- RAG 是一种非梯度方法。这意味着无需微调所使用的一个或多个LLMs即可实现生成式人工智能解决方案的定制。因此,可以实现一定程度的LLMs独立性。
- 微调基础模型是不透明的;因此在微调和生产过程中缺乏可检查性和可观察性。RAG 具有高水平的可观察性和可检查性。问题或用户输入可以与检索到的数据块/上下文数据进行比较。这又可以与LLMs生成的响应进行比较。
- RAG 解决方案的持续维护更加容易,因为它适合技术含量较低的零碎方法。
RAG 和敏感数据
例如,我们可以使用个人信息的后续文本(例如“请给我打电话”)来提取电话号码。来源
考虑下图,实际上有两个区域可以暴露敏感数据。
第一个是