预训练数据指南:衡量数据年龄、领域覆盖率、质量和毒性的影响

前言

原论文:A Pretrainer’s Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity

摘要

预训练是开发高性能语言模型(LM)的初步和基本步骤。尽管如此,预训练数据的设计却严重缺乏记录,而且往往是以缺乏经验支持的直觉为指导。为了解决这个问题,我们对28个1.5B参数的Decoder only模型进行了预训练,训练数据包括:(1)不同时间;(2)使用不同毒性和质量过滤器;(3) 不同领域组成的数据。首先,我们量化了预训练数据时效性的影响。评估数据和预训练数据之间的时间变化会导致性能下降,而微调并不能克服这一问题。其次,我们探讨了质量和毒性过滤器的影响,结果表明在标准基准性能和毒性风险之间存在权衡。我们的研究结果表明,过滤训练数据并不存在放之四海而皆准的解决方案。我们还发现,不同类型的过滤器效果无法从文本特征中预测。最后,我们通过实证验证了纳入书籍和网络等异构数据源具有广泛的益处,值得优先考虑。这些发现是对文本预训练进行验证、量化和揭示许多未被记录的直觉的最大规模实验,我们希望这些发现将有助于在LM开发中支持更明智的以数据为中心的决策。

引言

语言模型(LM)的强大性能和创新能力取决于在海量文本数据集上的自监督预训练。所有模型开发人员都会或隐或显地决定这些数据集的组成:包括哪些数据源,是否要过滤质量和毒性等属性,以及何时收集新文档。虽然许多最著名的模型都没有记录它们的整理程序,或者只记录它们使用了哪些程序,但它们很少记录为什么要选择这些规程或这些规程有什么作用。这种文件记录上的欠缺使得实践者只能凭直觉和先例行事,而无法对其进行全面评估。鉴于预训练数据在现代语言模型中的重要作用,我们认为这种忽视数据使用的做法有损负责任的数据使用,并阻碍了高性能模型的开发。

在社区使用和讨论的少数通用LM中,普遍关注的焦点是预训练数据的规模和优化步骤的数量。在这项工作中,我们系统地测试了常见数据设计决策对模型性能的影响,特别是:收集时间、内容过滤策略(毒性/质量)和领域组成。我们从两个方面研究了这些影响。首先,我们对现有质量和毒性过滤方法的效果进行了观察测量(第 3 节)。我们记录了这些过滤方法如何影响两个主要预训练数据集(C4 和 Pile)的一系列特征。其次,我们在下游任务中严格评估了这些数据集设计决策。为此,我们评估了Decoder only的自回归语言模型,每个自回归语言模型都在沿时间、毒性、质量或领域组成的一个维度在修改的数据集上进行了预训练。

数据集的时效性(第4节)。如果评估数据是在预训练数据收集之前或之后收集的,我们就会看到性能下降的现象,而且这种缺陷并不能通过大量的微调来克服。此外,这种现象在大型模型中更为严重。虽然这种现象很少被承认,但我们发现它的影响会使新旧模型之间的比较变得复杂,这取决于评估数据集的时效性。

质量过滤和毒性过滤(第5节)。文档的质量过滤和毒性过滤对模型行为有着显著但相反的影响。质量过滤,即移除低质量文本,尽管减少了训练数据量,却大幅提升了我们在测试任务中的有毒内容生成和下游任务的表现。相反,移除有毒数据则是在减少有毒内容生成的同时,牺牲了一定程度的泛化性能。而反向毒性过滤,即移除最无毒的内容,则显示出特定的好处。此外,在高质量文本数据集上的评估结果并不一定因为移除了低质量文本而得到提升。质量过滤带来的性能影响大多是积极的,但这些好处并不能从文本特征上进行预测。这些发现表明,并没有一种通用的过滤方法适合所有情况,因此从业者需要为其具体任务开发更具针对性的质量或反向毒性过滤器。

领域组合(第6节)。表现最佳的领域包括高质量(书籍)和多样化的(网络)数据。然而,这些文本来源也是有毒内容生成的主要贡献者。尽管如此,我们发现使用这些数据源进行训练的好处通常大于针对某一特定领域的数据收集工作。因此,我们建议从业者在未来的数据收集工作中重点关注更多的书籍和多样化的网络数据。另外,我们表现最好的模型仍然使用了所有的数据源(即使在相对较小的1.5B参数规模下),因此我们建议从业者在选择数据源时应尽可能地广泛包含,即便某些数据源与下游任务的相关性较低。

据我们所知,这些实验构成了迄今为止最大规模的公开记录的语言模型数据整理研究,涵盖了28个拥有1.5B参数的模型。它们的经验结果,挑战了一些根深蒂固的、未经充分审查的预训练假设;我们认为这些结果证明了其计算成本(第8节)。由于大多数社区成员已经采用了一小部分模型来进行大部分的研究和应用(如BERT、T5、GPT-2、GPT-3),因此预训练数据整理的决策具有长期影响。我们希望这些结果能够更好地指导正在训练新一代语言模型的开发者们。

方法

我们测量了预训练数据整理的选择如何影响下游任务的表现。图1展示了我们的方法:每个实验都是从一个预训练数据集开始,应用一个过滤器来移除文档,然后在整理后的数据集上对语言模型进行预训练,最后在下游任务上评估该模型。

请添加图片描述

图 1: 实验性的预训练数据整理流程包括三个步骤:从C4或The Pile中选取数据作为子集,预训练一个语言模型,并在多个基准上评估其性能变化。

预训练数据集

我们从两个常见的公开预训练数据集开始: C4 和 Pile。这两个数据集都已针对英语语言和内容质量进行了基本的启发式初步过滤。我们使用模糊重复算法对这两个数据集进行进一步去重。

English Colossal Clean Crawled Corpus (C4) 是2019年Common Crawl的存档,其中包括新闻、法律、维基百科和通用网络文档的混合文档,并对格式良好的英文文本进行了过滤。C4是用于文本训练的最广泛采用的完全开放源码数据集之一,因为它有许可授权。如表1所示,它是许多LM的关键组成部分。

表 1: 以下是一份知名语言模型列表及其预训练数据的定量分析,包括所涵盖的领域;使用The Pile或C4,还包括多语言(非英语和非代码)数据的百分比;是否使用了毒性或质量数据过滤,无论是自动启发式过滤(H)还是分类器(C);数据集是否公开(Pub),以及数据收集截至的年份。如果数据集是“部分”公开的,则表示其所有组成部分语料库是公开的,但最终的数据集混合版本不是。在所涵盖的领域中,参照自(Zhao等人,2023),其中“WEB”包括Common Crawl和其他网页抓取数据;“DIALOG”包括论坛、社交媒体和对话;“学术”包括研究论文、教科书和数学资料。

![请添加图片描述](https://i-blog.csdnimg.cn/direct/3f30e60f87a1450ebfe0ac2cab18d7fa.png) The Pile 是一个由22个来源组成的数据集,总容量为800GB。这些来源包括Common Crawl的网页抓取数据,以及更多样化的学术、图书、编程、医疗、法律和社会来源集合(见表8),这些更接近于像PaLM、Chinchilla和GPT-3系列这样的大型非开源模型所报告的数据来源。需要注意的是,The Pile的数据集构成是经过人工筛选的,并且基于数据过于有毒或过于露骨的原因排除了一些选项。

数据整理与筛选

我们根据3类干预措施来评估预训练数据的变化。

数据时效性:我们通过重新生成不同年份的Common Crawl来创建C4的新版本。而对于The Pile,则没有多个基于时间的集合可供使用。

领域过滤:C4 和 The Pile 都来源于多个不同的数据源,但The Pile明确界定了22个不同的来源,包括网页、维基百科文章、代码仓库、在线论坛、法律文本和研究论文档案。为了控制预训练集合的主题内容,我们有选择地移除了来自不同领域的文档(见表8)。

内容过滤:来自Common Crawl和其他弱管理互联网来源的数据集往往包含大量低质量、有毒或冒犯性的内容。因此,数据整理者常常会应用基于内容的过滤器。决定哪些内容应该包含,哪些不应该包含是一个具有挑战性和依赖上下文的问题:一篇“高质量”的Reddit帖子看起来并不像一篇“高质量”的学术论文;即使是学术论文,同行评审衡量的质量也有很大差异。

确定文档适宜性的方法有多种。最简单的过滤器使用诸如句子长度、停用词和标点符号的存在与否、以及重复性等特征来识别那些不含可用文本的页面。负面定义的过滤器识别出一类需要移除的文本,并假定其余的文本都是可用的。例如,Raffel等人(2020)移除了包含“不良词汇”列表中词语的文档。正面定义的过滤器则是识别出一类需要保留的文本,并移除其他所有内容。

在本项工作中,我们评估了两种文档级别的、基于分类器的过滤器对最先进的语言模型开发的影响,这两种过滤器被广泛使用。其中包括负面定义的有毒内容(含有亵渎、露骨、侮辱或威胁性质的文本)和正面定义的高质量内容(类似于已知“高质量”来源的文本)。重要的是要强调,我们并没有所谓的事实标准:在本文中,当我们使用有毒或高质量来描述文档时,是指触发了这些自动化分类器的文档,而不是指对人类读者来说确实具备这些特征的文档。

质量过滤:最近的大多数语言模型都创建了质量分类器来区分“高质量”语料和其他文档(见表1)。这些分类器通常应用于爬取的网页。高质量参考语料的例子包括:(1) GPT-3 使用的Wikipedia、WebText和书籍,(2) PaLM和GLaM 使用的Wikipedia、书籍和少数精选网站,以及(3)LLaMA 使用的作为Wikipedia参考资料的网页。在我们的工作中,我们采用了PaLM和GLaM使用的分类器,该分类器给每个文档分配一个从0(高质量)到1(低质量)的分数。我们试验了移除超过四个质量阈值的文档:0.975、0.95、0.9、0.7,同时还使用了一个逆向过滤器,该过滤器移除低于某一阈值的最高质量文档。

为了识别有毒内容,我们使用了Jigsaw的Perspective API,该API是基于在线论坛中的评论训练而成的,它会根据评论是否包含脏话/猥亵言语、基于身份的负面言论、侮辱或威胁来赋予相应的毒性评分。虽然Perspective API和其他任何分类器一样并不完美——它有时会将一些中立的文本错误地标记为有毒,并且其训练数据反映了标注者的规范性价值观——但它已被证明比基于启发式和规则的分类器更为准确。

Perspective API输出一个从0(不太可能是有毒的)到1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羽星_s

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值