论文翻译:arxiv-2024 Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language

Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models
https://arxiv.org/abs/2404.02936

Min-K%++:改进的基线用于检测大型语言模型中的预训练数据

摘要

大型语言模型(LLMs)的预训练数据检测问题因其在版权侵犯和测试数据污染等关键问题上的影响而受到越来越多的关注。尽管性能有所提高,但现有的方法(包括最先进的Min-K%)大多基于简单的启发式规则,缺乏坚实的、合理的基础。在这项工作中,我们提出了一种新的、理论上有动机的预训练数据检测方法,名为Min-K%++。具体来说,我们提出了一个关键见解:通过最大似然训练,训练样本倾向于成为模型分布沿每个输入维度的局部最大值,这反过来使我们能够将问题有洞察力地转化为局部最大值的识别。然后,我们相应地设计了我们的方法,它在LLMs建模的离散分布下工作,其核心思想是确定输入在条件分类分布下是否形成一个模式或具有相对较高的概率。从实证上看,所提出的方法在多个设置中实现了新的SOTA性能。在WikiMIA基准测试中,Min-K%++在五个模型上的平均检测AUROC上比第二名高出6.2%到10.5%。在更具挑战性的MIMIR基准测试中,它在不依赖参考方法的同时,一致地改进了参考方法,而参考方法需要一个额外的参考模型。

1 引言

数据是大型语言模型(LLMs)成功的重要因素之一。随着训练语料库规模的增长,它越来越倾向于作为专有数据内部保留,而不是公开披露[33, 1]。然而,对于包含数万亿个标记的大型训练语料库[9],训练语料库的庞大体量可能导致意想不到的负面后果。例如,记忆的私人信息容易受到数据提取的攻击[4],记忆的受版权保护的内容(如书籍和新闻文章)可能侵犯内容创作者的权利[14, 20]。此外,评估数据在训练时被暴露的可能性越来越大,这使得评估基准的可靠性和有效性受到质疑[27]。由于这些原因,对有效的预训练数据检测策略的兴趣越来越大。预训练数据检测可以被认为是成员推断攻击(MIA)的一个特例[30]:目标是推断给定输入是否被用于训练目标LLM(见图1左图说明)。由于预训练语料库的特性和LLMs的训练特性[29, 10],这个问题被证明比传统的MIA设置更具挑战性(见第5节详情)。最近提出了几种专门针对这个问题的方法[4, 23, 29]。然而,尽管它们的性能有所提高,但大多数现有方法都是基于简单的启发式规则开发的,缺乏坚实和可解释的基础。

在这项工作中,我们提出了一种新的、理论上有动机的预训练数据检测方法,名为Min-K%++。我们的探索始于提出一个基本问题:“训练样本在模型中表现出哪些特征或痕迹”,我们通过分数匹配的视角重新审视最大似然训练目标来回答这个问题[18]。重要的是,我们发现对于连续分布的最大似然训练,训练数据点倾向于成为局部最大值或位于输入维度的局部最大值附近,这是一个关键见解,使我们第一次能够将训练数据检测问题转化为局部最大值的识别。然后,在理论洞察的基础上,我们为LLMs建模的离散分布开发了一种实用的评分机制。核心思想是检查输入的下一个标记在条件分类分布下是否形成一个模式或具有相对较高的probability。从实证上看,我们在两个已建立的基准测试上对所提出的方法进行了广泛的实验验证,包括多达5个模型系列,包括LLaMA[32]、Pythia[2]和新架构Mamba[15]。图1右图展示了我们的方法与以前的方法之间的性能比较。值得注意的是,Min-K%++在WikiMIA基准测试[29]上平均比第二名Min-K%[29]高出6.2%到10.5%的绝对增长。在更具挑战性的MIMIR基准测试中,我们的方法仍然一致地优于其他无参考方法,并且与需要另一个LLM来校准可能性的基于参考的方法[4]持平:与基于参考的方法不同,Min-K%++适用于独立的目標LLM。我们还引入并研究了一种在线检测设置,模拟“边生成边检测”;所提出的Min-K%++再次表现最佳。最后,Min-K%++也可以从校准的角度进行解释:通过消融研究,我们展示了公式中的两个校准因子都有助于整体高性能。我们将我们的贡献总结如下:

  1. 我们建立了一个观点,即对于最大似然训练,训练实例倾向于在每个输入维度(在连续分布下)形成局部最大值或位于局部最大值附近,使我们能够将训练数据检测转化为局部最大值识别。2) 我们为LLM训练数据检测开发了一种新颖且合理的方法,该方法通过检查输入在条件分类分布下是否形成一个模式或具有相对较高的probability来起作用。3) 我们在已建立的基准测试上展示了比现有方法显著的改进。
    在这里插入图片描述

图1:左图:我们研究了LLMs的预训练数据检测问题[29, 10]。给定对目标LLM的灰盒访问权限(只有逻辑、标记概率和损失可用),目标是设计一个评分函数,该函数产生一个分数,该分数(在阈值处理后)最好地区分训练和非训练文本。右图:各种方法在WikiMIA基准测试[29]上的ROC(接收者操作特征)曲线。图例中注明了AUROC(ROC曲线下面积)分数。我们的Min-K%++通过大幅度改进现有方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值