研究人员用“成员推断攻击”检索大模型知识库,攻击精度达到80%

前言

知识检索增强系统,是已被用于大模型的技术之一,能有效解决大模型存在的知识更新不及时和幻觉等问题。

知识检索增强的存在使得大模型无需通过模型训练来适应下游任务,而是能够通过一个外挂的知识库,检索与用户所提的问题最相关的文本,并将这些文本集成为大模型的输入,从而优化模型生成的内容。

想象一下,知识检索增强就像是给 AI 装上了一个超级图书馆。当我们向 AI 提问时,它不需要把所有知识都记在“大脑”里,而是在这个“图书馆”中快速查找最相关的信息,然后基于这些信息给出回答。

然而,知识检索增强虽然实用并且使用门槛较低,但也同样带来了风险。

已有研究表明,只需向知识检索增强的知识库中注入一些有害信息,就能诱导大模型产生不当的回答。可见知识检索增强系统本身并不安全。

更令人担忧的是:知识检索增强系统的知识库本身安全吗?知识库中的信息通常是私有的,会不会存在被泄露的风险?

想象一下,在医疗领域,知识检索增强系统的知识库里可能包含大量的医疗问答数据。一旦这些信息被泄露,病人的隐私就会受到严重威胁。

因此,知识检索增强的数据安全尤为重要,但在此前只有来自于 IBM 研究实验室和南洋理工大学的研究人员关注这个问题。

为了验证这些问题,近期有研究人员设计了一种新的算法,旨在通过成员推断攻击(MIA,Membership Inference Attack)来判断知识检索增强系统的知识库中所存储的信息。

成员推断攻击,是用来测试模型隐私性的一种通用技术。它的工作原理可以理解为是在玩一个猜谜游戏:通过观察模型的损失值、置信度、困惑度等信息,来推测它是否“见过”某个样本。

但是,传统的成员推断攻击主要针对那些参数化的 AI 模型,并不适用于知识检索增强这样非参数化系统。

而该团队提出的新算法仅通过一个黑盒的应用程序编程接口(API,Application Programming Interface),无需介入模型训练过程,也无需知道模型内部信息。仅通过模型输出就能有效判断某个信息是否存在于知识检索增强的知识库中。

具体来说,课题组将用户的输入文本划分为两部分。前半部分作为 prompt,使得知识检索增强系统能检索与 prompt 最相关的信息并生成输出文本。

假如输入文本存在于知识库中,模型生成的内容会与输入文本非常相似,且生成文本的困惑度更低。

因此,他们通过输入文本和输出文本的相似度以及模型生成的困惑度作为评判标准,来判断输入文本是否存在于知识库中。

实验结果显示,本次方法能够达到 80% 以上的攻击精度,证明知识检索增强系统的知识库的确存在隐私泄露的风险。

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值