谷歌训了28个15亿参数模型,说明数据对大模型训练的影响

研究发现,预训练数据与测试数据的时间差对模型性能有负面影响,不能通过微调弥补;严格的内容过滤虽减少有害信息生成,但可能影响模型的有害信息识别能力;数据领域的多样性对模型表现至关重要,而单一领域的去除通常降低模型性能;书籍、学术和互联网数据在有害信息含量上较高。
摘要由CSDN通过智能技术生成

78f3aaabd84ed55ccf62d0ca183a6b21.png夕小瑶科技说 原创
作者 | Python

随着ChatGPT的爆火,大规模语言模型(Large Language Model,LLM)如日中天。然而,由于相关数据细节并不公开,相关研究大多都是盲人摸象式探索,缺乏系统的经验指导。

本文针对LLM的语言模型预训练步骤给出了系统的经验性探索,训练了28个1.5B规模的LLM,关注数据时间、不同的风险内容和质量过滤策略、不同的领域组合方案,对预训练来拿带来的影响。

结论表明,预训练数据与测试数据之前的时间差距会带来负面影响,且无法被后续的fine-tuning克服;模型表现与内容风险难以两全;不同来源的数据混合,如书籍与网页数据,能够带来明确的提升。

论文题目:
A Pretrainer’s Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity

论文链接:
https://arxiv.org/pdf/2305.13169.pdf

实验设置

模型选用基于T5X codebase实现的LM-XL, 一个 1.5B 规模的Decoder-only模型,通过自回归的next-token-prediction目标训练。此外,还用了一个20M参数的LM-Small模型作为小模型对比。

数据集基于C4和Pile。C4数据集是Common Crawl在2019年的快照,包含新闻、法律、维基百科和通用网络文档等多种文本类型。Pile数据集包括22个来源的800GB数据,如Common Crawl的网络爬取数据,以及更多多样化的学术、书籍、编码、医疗、法律和社交等数据源。

评价方式:

  • 领域泛化:MRQA和UnifiedQA,包含30个不同领域的问答数据集。

  • 时效性:从论文[1]中选取了5个不同领域的数据集,PubCLS, NewSum, PoliAffs, TwiERC, 和 AIC。

  • 有害信息生成:根据Perspective API和RealToxicityPrompts数据集,关注与性别、种族和宗教等相关的输出。

  • 有害信息识别:使用了来自Social Bias Frames、DynaHate和Toxigen等数据集的训练和测试集,以评估模型识别有害信息的能力。

预训练数据与测试数据的时间差

b300d1bc1e10be4b1e257dd4fd161da3.png

模型表现如上图所示。其中,纵轴是预训练数据的时间来源,横轴是测试数据的时间来源。按时间差进行统计后可以得到下图。从中可以看出,训练数据和测试数据时间上的差异会带来明显的表现下降。

d97dcbbcc92e015a0df043e313ab1326.png

具体看下图的统计数据,其中TD训练数据和测试数据每差一年的预期效果下降,而r是皮尔森相关系数。Fine-tuning部分是在测试前,先用和数据集相同年代的语料精调一下。可以看出,预训练数据和评估数据之间的时间不一致无法通过微调来解决,预训练数据时效性的影响对于较大的模型比较明显。

885b6c89c1eb45df1dbb34fa7f7ea1d7.png

有害内容/质量过滤策略

下图可以看出,预训练数据中有害内容过滤越多,模型生成有害信息就越少,模型鉴别有害信息的能力也越弱。但低质数据过滤之后,会减少数据的多样性,从而提高有害信息鉴别的能力的同时,让模型生成更多的有害信息。

72f36ad4d67e5a45cd92a196af31f792.png

下图可以看出,在LM-XL上,低质量内容过滤可以提升大多数领域的问答任务表现,除了在书籍数据上起到了反效果。事实上,在Books, Wikipedia, 和 Web 这三个“高质量”领域中,低质量数据过滤起到的效果反而是最差的。

37052025e961ff93fbddb86a39d2a948.png

下图可以看出,有害信息过滤会对LM-XL解决绝大多数下游QA任务的能力起到负面影响。

0c0a90b92ef73ea947c256b5cbba5f5c.png

预训练数据领域组合

下图可以看出,去掉预训练数据中的某一个领域,普遍会对模型在下游任务上的表现产生负面影响。领域多样性对预训练数据而言,甚至比领域相关性更重要。Common Crawl, OpenWeb, 和 Books 对下游任务表现的影响最为明显。

ac051d1b16657d01833416c10701904c.png

下图中,我们观察去掉预训练数据中的某一个领域,对有害信息生成与检测的影响。可以发现,去掉一个领域的数据,普遍会对有害信息检测产生负面影响。书籍、学术和互联网数据含有相对较多的有害信息(如个人信息等),将其去除可以让预训练模型生成较少的有害信息。91ecf5530d33649f36bb5c7e32d77683.png

结束语

这篇文章调研了大语言模型训练数据对预训练过程的影响,为大语言模型的研究提供了有价值的经验指导,同时又让人们看到了谷歌的财大气粗。训28个1.5B的大模型不带眨眼的,而且只是为了得到些经验性的结论而非产生直接的社会经济效益。

4394772fbd8bcedae63d7a4a0dab7d04.png
参考资料
 [1] Time waits for no one! analysis and challenges of temporal misalignment.
 
 

290790505990b85d76306352dbf467fb.jpeg

 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习微信群请扫码
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值