概述
随着人工智能的快速发展,大规模语言模型已成为自然语言处理、自动内容生成、复杂决策系统和自主代理等不同领域创新的重要工具。这些模型在庞大的数据集上进行训练,可以生成与人类无异的自然答案。但是,如果数据集的完整性遭到破坏,模型的有效性和可靠性就会受到严重影响。
污染 "是这一领域的一个主要问题。这种污染包括 "数据污染 "和 “模型污染”。"数据污染 "是指由于在训练集中加入了评估数据集而导致评估结果失真,而 "模型污染 "则是指模型事先看到了评估数据集。这可能导致对模型性能的评估不准确,并可能造成偏差。此外,根据受污染的数据是只包含输入还是同时包含输入和标签,还可将其分为 "输入污染 "和 “输入+标签污染”。检测模型污染的方法可分为白盒检测和黑盒检测,前者可以完全访问本地模型,而后者只能访问 API。
污染不仅在技术准确性方面带来挑战,在道德和商业方面也是如此。在医疗诊断、法律咨询和金融服务等需要信任的领域,依赖受污染数据的风险尤其大。随着公司利用人工智能进行战略决策,保证数据的准确性至关重要。大规模语言模型输出的可靠性也会影响投资者的信心,而投资者的信心又与技术优势和财务前景有关。
这种情况要求对大规模语言模型中的污染检测进行全面调查和资源共享。本文阐明了污染的范围和性质,确定了污染的来源、类型和对模型性能的影响。本文还强调了降低污染风险战略的重要性,从而确保大规模语言模型的部署是公平和经济上可持续的。
论文介绍了与数据污染相关的方法和发现、模型污染问题、当前和未来的挑战、最佳实践,以及可共享污点检测方法的开源 Python 库 LLMSanitize。
数据污染审查
数据污染检测的目的是检查在给定训练数据集 D 和评估数据集 DE 的情况下,D ∩ DE 是否为空。这对于确保评估基准的性能不受污染数据的影响至关重要。
在一些大规模语言模型训练报告中,下游评估数据集和预训练集之间的污染程度是通过字符串匹配来评估的,这是最基本的数据污染评估技术。这种技术有以下优点。
- GPT-2(Radford 等人,2019 年)。
- 污染的计算方法是评估集中的 8 个语法在 WebText 训练集中所占的比例。一般语言模型数据集的测试集与 WebText 数据集的重叠率为 1-6%,平均重叠率为 3.2%。
- GPT-3(Brown 等人,2020 年)。
- 删除了普通爬行(C4)数据集和含有 13 个重复语法的数据点。发现了大规模数据污染,维基百科语言建模基准和 SQuAD 2.0 几乎完全被污染。
- 道奇等人(2021 年)。
- 对 C4 数据集进行了检查,以确定其在 NLP 任务训练和测试数据集的预训练语料库中的含量。污染程度从不到 2% 到超过 50% 不等。
- PaLM(Chowdhery 等人,2023 年)。
- 确定 10 个存在污染风险的评估数据集,并根据训练集中 8 个词组的比例是否超过 70%,将数据集分为清洁和污染子集 与 GPT-3 一样,清洁集和污染集之间的性能差距很小。
- GPT-4(Achiam 等人,2023 年)。
- 测量评估集和预培训数据之间的污染程度,方法是从评估数据点中随机提取的 50 个字符的子字符串,如果是培训集的子字符串,则视为重复。污染对零点测试结果的影响可以忽略不计。
- Llama-2(Touvron 等人,2023 年)。
- 在评估样本和训练集中出现 10 个或 10 个以上的词组 n-gram 时,即定义为污染。污染程度以受污染词块的百分比来衡量。
- 李(2023b)。
- 计算来自 CommonCrawl 的匹配页面与来自 Bing API 的查询之间的 METEOR 分数,并将高于 0.75 的视为污染。污染程度从 1% 到 47% 不等。
- Deng 等人(2023 年)。
- 从预训练数据集中检索出前 10 篇文档,将其分成 13 个语法块,并计算与评估数据点的语法块的重叠度。结果显示,TruthfulQA 与预训练数据集的重叠度很高。
简单的字符串匹配对转述样本无效。不过