论文翻译:arxiv-2024 DICE: Detecting In-distribution Contamination in LLM’s Fine-tuning Phase for Math

DICE: Detecting In-distribution Contamination in LLM’s Fine-tuning Phase for Math Reasoning
https://arxiv.org/abs/2406.04197

DICE:检测大型语言模型(LLM)微调阶段中的分布内污染以提高数学推理能力

摘要

大型语言模型(LLM)的进步依赖于使用公共基准进行评估,但数据污染可能导致性能被高估。以往的研究集中在通过确定模型在训练期间是否见过完全相同的数据来检测污染。在这项工作中,我们认为即使在与基准数据相似的数据上训练也会在分布内任务上提高性能,而不会提高整体能力,我们称之为分布内污染。为了有效检测分布内污染,我们提出了DICE,这是一种新方法,它利用LLM的内部状态来定位然后检测污染。DICE首先识别对污染最敏感的层,然后基于该层的内部状态训练分类器。实验表明,DICE在检测各种LLM和数学推理数据集中的分布内污染方面具有高准确性。我们还展示了训练有素的DICE检测器的泛化能力,它能够检测具有相似分布的多个基准中的污染。此外,我们发现DICE检测分数与我们或其他组织在四个数学推理数据集上微调的十个LLM的性能呈正相关(R2值在0.6到0.75之间)。这表明分布内污染问题可能导致许多现有模型的真实能力被高估。代码 & 数据:GitHub链接

1 引言

当前大型语言模型(LLM)及其相关技术的发展严重依赖于公共基准来确保进步方向正确。例如,该领域主要使用GSM8K和MATH来评估LLM的数学推理能力。然而,人们越来越担心这些基准上的一些令人印象深刻的性能可能归因于数据污染,即训练数据包含基准的原始数据并被模型记忆,我们称之为精确污染。在这项工作中,我们认为即使在与基准数据相似的数据上训练也会导致严重的性能高估,即分布内污染。由于预训练数据庞大且难以根据其分布进行区分,我们将范围缩小到监督微调(SFT)阶段。我们旨在回答以下研究问题:(1)分布内污染是否有助于模型的整体数学推理能力?(2)如果不是,我们如何检测它以防止由于污染而高估模型的能力?为了调查分布内污染是否真的能提高LLM的数学推理能力,我们为一组微调的LLM设计了一个OOD测试,模拟在GSM8K上不同程度的分布内污染。在第2.2节中,我们展示了即使训练数据中的污染数据只占一小部分,模型在分布内(ID)基准上的表现也显著高于OOD基准上的表现。结果表明,ID数据并没有真正增强模型的整体数学推理能力,分布内基准上的表现不再反映模型的真实能力。这激发了对分布内污染检测的需求:给定一个微调的LLM在一段测试数据上,确定模型是否在微调期间见过其分布内数据

如图1所示,先前的方法通过测量模型对测试数据的记忆水平来检测污染,例如,通过评估测试数据上的困惑度来检测模型是否见过原始测试数据。然而,与精确污染不同,分布内污染的训练数据,如从测试数据重写而来,只在语义层面与测试数据相似。这导致所有先前污染检测方法的失败,如图1右下角所示

为了在LLM的微调阶段检测分布内污染,我们提出了一种名为DICE的新型定位然后检测方法,它定位LLM内部状态的证据以检测其污染。如图2所示,我们首先在不同污染程度的数据集上微调基础LLM以获得不同的参考模型。接下来,我们通过识别污染和未污染模型之间状态距离最大的层来定位污染层,即对污染水平最敏感的层。最后,我们训练一个MLP作为分类器,基于污染层的状态来量化污染水平。在不同LLM和数据集上的广泛实验表明,DICE能够准确检测LLM中的分布内污染。此外,我们发现在GSM8K上训练的DICE检测器能够很好地泛化到检测其他分布内数据集上的污染,如GSM-hard或改写的GSM8K。我们还发现DICE的预测与十个LLM在四个数据集上的表现高度相关,表明分布内污染的普遍存在。我们的工作及时地提出了DICE作为一种有效的工具来检测它们,具有加强基准测试结果可靠性的巨大潜力。

总结:
我们对分布内污染对LLM在ID和OOD任务上的表现的影响进行了检查,揭示了它导致模型在ID基准上的能力被高估。
我们提出了一种名为DICE的新型定位然后检测方法,它训练一个分类器来利用LLM的内部状态来检测数据污染。
我们在各种LLM和数据集上对DICE进行了全面评估,在检测分布内数据污染方面取得了最先进的性能。
在这里插入图片描述

图1:传统的污染检测方法无法处理分布内污染。Vanilla LLM指的是用未污染数据微调的LLM。
在这里插入图片描述

图2:DICE概述。定位然后检测LLM的分布内数据污染。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值