[论文精读]Do Membership Inference Attacks Work on Large Language Models?

Do Membership Inference Attacks Work on Large Language Models?

https://arxiv.org/abs/2402.07841

COLM 2024

摘要

成员推理攻击 (MIA) 试图预测特定数据点是否是目标模型训练数据的成员。尽管对传统机器学习模型进行了广泛的研究,但在大型语言模型 (LLMs。我们在 Pile 上训练的一套语言模型 (LM) 上对 MIA 进行了大规模评估,参数范围从 160M 到 12B 不等。我们发现,对于不同 LLM。我们的进一步分析表明,这种糟糕的性能可归因于 (1) 大型数据集和少量训练迭代的结合,以及 (2) 成员和非成员之间固有的模糊边界。我们确定了 LLMs 已被证明容易受到成员推断的特定设置,并表明此类设置的明显成功可归因于分布变化,例如当成员和非成员来自看似相同但时间范围不同的域时。我们将代码和数据作为统一的基准测试包发布,其中包括所有现有的 MIA,以支持未来的工作。

介绍

在这项工作中,我们着手探索评估 LLMs的挑战,包括五种常用的成员推理攻击:LOSS(Yeom et al., 2018)、基于引用的攻击(Carlini et al., 2022;Mireshghallah等 人,2022a)、zlib 熵(Carlini 等 人,2021 年)、曲率(Mattern 等 人(2023 年)的邻域攻击)和最小 k % 概率(Shi 等 人,2023 年)。我们介绍了 Mimir,这是一个用于评估 LM 的 MIA 的统一存储库,并实施了文献中的几种攻击。我们报告了针对 Pythia 套件 (Biderman et al., 2023b) 的目标模型在 Pile (Gao et al., 2020) (§ 4) 上广泛评估这些 MIA 的实验。在大多数情况下,我们发现大多数 MIA 和目标域的性能几乎是随机的。增加模型大小会导致 MIA 性能略有提高,而训练数据的重复数据删除会导致略有下降。

对于预训练的LLM,MIA的性能很差。使用大量训练数据和接近1epoch训练很大程度上降低了现有MIA的表现,这表明先前的MIA(在机器学习模型上)并不能很好地迁移到对LLM的攻击上来,似乎是因为缺乏成员数据的记忆;自然语言上成员与非成员的频繁重叠(n-gram重叠率较高)也会大大降低MIA性能。

我们提出了非成员 n -gram 重叠分析作为估计 MIA 基准难度的一种方法,方法是比较候选非成员集和来自成员域的遗漏样本集之间的 n -gram 重叠分布差异。最后,我们将这种重叠分析应用于攻击设置,其中非成员与成员来自同一域,但在时间上发生了偏移,展示了看似域内的非成员如何由于 n -gram 重叠偏移而属于不同的分布 (§ 6)。我们建议使用这种方法来评估 MIA 基准,并确定 MIA 的成功是否归因于成员和非成员候选人之间的分布差异,或者 MIA 是否真正有效地捕捉了成员信号。

背景

把MIA给抽象成为一种数学运算:目标是计算成员分数f(x;M),其中x是某条数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值