大模型隐私泄露攻击技巧分析与复现

蚁景网安实验室

于 2024-09-02 16:58:27 发布

阅读量1.8k

点赞数 17

分类专栏：渗透测试经验分享网络安全文章标签： chatgpt 隐私泄露攻击技巧

本文链接：https://blog.csdn.net/qq_38154820/article/details/141824151

版权

前言

大型语言模型，尤其是像ChatGPT这样的模型，尽管在自然语言处理领域展现了强大的能力，但也伴随着隐私泄露的潜在风险。在模型的训练过程中，可能会接触到大量的用户数据，其中包括敏感的个人信息，进而带来隐私泄露的可能性。此外，模型在推理时有时会无意中回忆起训练数据中的敏感信息，这一点也引发了广泛的关注。

隐私泄露的风险主要来源于两个方面：一是数据在传输过程中的安全性，二是模型本身的记忆风险。在数据传输过程中，如果没有采取充分的安全措施，攻击者可能会截获数据，进而窃取敏感信息，给用户和组织带来安全隐患。此外，在模型的训练和推理阶段，如果使用了个人身份信息或企业数据等敏感数据，这些数据可能会被模型运营方窥探或收集，存在被滥用的风险。

过去已经发生了多起与此相关的事件，导致许多大公司禁止员工使用ChatGPT。此前的研究表明，当让大模型反复生成某些特定词汇时，它可能会在随后的输出中暴露出训练数据中的敏感内容。

学术研究表明，对模型进行训练数据提取攻击是切实可行的。攻击者可以通过与预训练模型互动，从而恢复出训练数据集中包含的个别示例。例如，GPT-2曾被发现能够记住训练数据中的一些个人信息，如姓名、电子邮件地址、电话号码、传真号码和实际地址。这不仅带来了严重的隐私风险，还对语言模型的泛化能力提出了质疑。

本文要探讨的就是可以高效从大模型中提取出用于训练的隐私数据的技巧与方法，主要来自《Bag of Tricks for Training Data Extraction from Language Models》，这篇论文发在了人工智能顶级会议ICML 2023上。

背景知识

尽管大模型在各种下游语言任务中展现了令人瞩目的性能，但其内在的记忆效应使得训练数据可能被提取出来。这些训练数据可能包含敏感信息，如姓名、电子邮件地址、电话号码和物理地址，从而引发隐私泄露问题，阻碍了大模型在更广泛应用中的推进。

之前谷歌举办了一个比赛，链接如下

https://github.com/google-research/lm-extraction-benchmark/tree/master

这是一个针对性数据提取的挑战赛,目的是测试参赛者是否能从给定的前缀中准确预测后缀,从而构成整个序列,使其包含在训练数据集中。这与无针对性的攻击不同,无针对性的攻击是搜索训练数据集中出现的任意数据。

针对性提取被认为更有价值和具有挑战性,因为它可以帮助恢复与特定主题相关的关键信息,而不是任意的数据。此外,评估针对性提取也更容易,只需检查给定前缀的正确后缀是否被预测,而无针对性攻击需要检查整个庞大的训练数据集。

这个比赛使用1.3B参数的GPT-Neo模型,以1-eidetic记忆为目标,即模型能够记住训练数据中出现1次的字符串。这比无针对性和更高eidetic记忆的设置更具有挑战性。

比赛的基准测试集包含从The Pile数据集中选取的20,000个示例,这个数据集已被用于训练许多最新的大型语言模型,包括GPT-Neo。每个示例被分为长度为50的前缀和后缀,攻击的任务是在给定前缀的情况下预测正确的后缀。这些示例被设计成相对容易提取的,即存在一个前缀长度使得模型可以准确生成后缀。

训练数据提取

从预训练的语言模型中提取训练数据,即所谓的"语言模型数据提取",是一种恢复用于训练模型的示例的方法。这是一个相对较新的任务,但背后的许多技术和分析方法,如成员资格推断和利用网络记忆进行攻击,早就已经被引入。

Carlini等人是最早定义模型知识提取和κ-eidetic记忆概念的人,并提出了有希望的数据提取训练策略。关于记忆的理论属性以及在敏感领域应用模型提取(如临床笔记分析)等,已经成为这个领域后续研究的焦点。

最近的研究也有一些重要发现:

Kandpal等人证明,在语言模型中,数据提取的效果经常归因于常用网络抓取训练集中的重复。
Jagielski等人使用非确定性为忘记记忆示例提供了一种解释。
Carlini等人分析了影响训练数据记忆的三个主要因素。
Feldman指出,为了达到接近最优的性能,在自然数据分布下需要记忆标签。
Lehman等人指出,预训练的BERT在训练临床笔记时存在敏感数据泄露的风险,特别是当数据表现出高水平的重复或"笔记膨胀"时。

总的来说,这个新兴领域正在深入探讨如何从语言模型中提取训练数据,以及这种提取带来的安全和隐私风险。最新的研究成果为进一步理解和应对这些挑战提供了重要的洞见。

成员推理攻击

成员资格推断攻击(MIA)是一种与训练数据提取密切相关的对抗性任务,目标是在只能对模型进行黑盒访问的情况下,确定给定记录是否在模型的训练数据集中。MIA已被证明在各种机器学习任务中都是有效的,包括分类和生成模型。

MIA使用的方法主要分为两类:

基于分类器的方法:这涉及训练一个二元分类器来识别成员和非成员之间的复杂模式关系,影子训练是一种常用的技术。
基于度量的方法:这通过首先计算模型预测向量上的度量(如欧几里得距离或余弦相似度)来进行成员资格推断。

这两类方法都有各自的优缺点,研究人员正在不断探索新的MIA攻击方法,以更有效地从机器学习模型中推断训练数据。这突出了训练数据隐私保护在模型部署和应用中的重要性。对MIA技术的深入理解,有助于设计更加安全和隐私保护的机器学习模型训练和部署策略,这对于广泛应用尤其是在敏感领域的应用至关重要。

其他基于记忆的攻击

大型预训练模型由于容易记住训练数据中的信息,因此面临着各种潜在的安全和隐私风险。除了训练数据提取攻击和成员资格推断攻击之外,还有其他基于模型记忆的攻击针对这类模型。

其中,模型提取攻击关注于复制给定的黑盒模型的功能性能。在这类攻击中,对手试图构建一个具有与原始黑盒模型相似预测性能的第二个模型,从而可以在不获取原始模型的情况下复制其功能。针对模型提取攻击的保护措施,集中在如何限制模型的功能复制。

另一类攻击是属性推断攻击,其目标是从模型中提取特定的个人属性信息,如地点、职业和兴趣等。这些属性信息可能是模型生产者无意中共享的训练数据属性,例如生成数据的环境或属于特定类别的数据比例。

与训练数据提取攻击不同,属性/属性推断攻击不需要事先知道要提取的具体属性。而训练数据提取攻击需要生成与训练数据完全一致的信息,这更加困难和危险。

总之,这些基于模型记忆的各类攻击,都突显了大型预训练模型在隐私保护方面的重大挑战。如何有效应对这些攻击,成为当前机器学习安全研究的一个重要焦点。

帮助网安学习，全套资料S信免费领取：
① 网安学习成长路径思维导图
② 60+网安经典常用工具包
③ 100+SRC分析报告
④ 150+网安攻防实战技术电子书
⑤ 最权威CISSP 认证考试指南+题库
⑥ 超1800页CTF实战技巧手册
⑦ 最新网安大厂面试题合集（含答案）
⑧ APP客户端安全检测指南（安卓+IOS）