论文翻译:ACL-2024 Unveiling the Spectrum of Data Contamination in Language Models: A Survey from

Unveiling the Spectrum of Data Contamination in Language Models: A Survey from Detection to Remediation

https://aclanthology.org/2024.findings-acl.951/

揭示语言模型中的数据污染问题:从检测到修正的调研

摘要

在大型语言模型(LLMs)的时代,由于依赖于广泛的互联网衍生的训练语料库,数据污染问题引起了越来越多的关注训练语料库与评估基准的重叠问题——被称为污染——已成为近期重要研究的焦点。这些工作旨在识别污染,理解其影响,并从不同角度探索缓解策略。然而,在这个新兴领域,缺乏从基础概念到高级洞察的清晰路径的全面研究。因此,我们提供了一个关于数据污染领域的全面综述,概述了关键问题、方法和迄今为止的发现,并强调了需要进一步研究和发展的领域。特别是,我们首先检查了数据污染在不同阶段和形式的影响。然后,我们提供了当前污染检测方法的详细分析,对其进行分类以突出它们的重点、假设、优势和局限性。我们还讨论了缓解策略,为未

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值