Unveiling the Spectrum of Data Contamination in Language Models: A Survey from Detection to Remediation
https://aclanthology.org/2024.findings-acl.951/
揭示语言模型中的数据污染问题:从检测到修正的调研
文章目录
摘要
在大型语言模型(LLMs)的时代,由于依赖于广泛的互联网衍生的训练语料库,数据污染问题引起了越来越多的关注。训练语料库与评估基准的重叠问题——被称为污染——已成为近期重要研究的焦点。这些工作旨在识别污染,理解其影响,并从不同角度探索缓解策略。然而,在这个新兴领域,缺乏从基础概念到高级洞察的清晰路径的全面研究。因此,我们提供了一个关于数据污染领域的全面综述,概述了关键问题、方法和迄今为止的发现,并强调了需要进一步研究和发展的领域。特别是,我们首先检查了数据污染在不同阶段和形式的影响。然后,我们提供了当前污染检测方法的详细分析,对其进行分类以突出它们的重点、假设、优势和局限性。我们还讨论了缓解策略,为未