论文翻译:arxiv-2024.Shahriar Golchin.Data Contamination Quiz: A Tool to Detect and Estimate

Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models
https://arxiv.org/abs/2311.06233

数据污染测验:一种检测和估计大型语言模型中污染的工具

摘要

我们提出了数据污染测验(Data Contamination Quiz,DCQ),这是一种简单有效的检测大型语言模型(LLMs)中数据污染的方法,并估计污染的程度。具体来说,我们将数据污染检测构建为一系列多项选择问题,并设计了一种测验格式,其中从特定数据集分区(例如,GSM8k测试集)的每个子样本实例创建三个扰动版本。这些变化仅包括单词级别的扰动。生成的扰动,连同原始数据集实例,构成了DCQ中的选项,额外提供一个选项以容纳选择无提供选项的可能性。鉴于选项之间的唯一区别是与原始数据集实例的确切措辞,当LLM被赋予识别原始数据集实例的任务时,如果它在预训练阶段接触过它,它会倾向于选择原始的一个——这是LLM固有的特征。在考虑LLM的位置偏差的同时,测验表现揭示了被

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值