LLMs之Falcon:《The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only》翻译与解读
导读:2023年6月1日,Falcon 是由TII(阿联酋阿布扎比技术创新研究)发布的大语言模型,包含 1B、7B、40B 三种规模。该模型曾因其在 40B 上的性能超越 65B LLaMA 而被人们广泛关注。尽管近期有文章指出,排行榜对 LLaMA 的计算可能存在一些问题,Falcon 并不一定真正击败 LLaMA,不过这并不影响人们对这一开源且参数更小的强大模型的给与极高的关注度。
Falcon = 基于decoder-only+ALiBi+FlashAttention+训练数据集(在RefinedWeb+The Pile)1B/7B/40B+侧重严格数据清洗的MRD流程+基于RefinedWeb互联网数据集【5000B的token】和人工精选数据集(精选+过滤+去重)
>>Falcon靠洗数据击败 LLaMA:本文章是一篇更侧重于“数据清洗”的论文,Falcon靠洗数据击败 LLaMA,一直在证明,不管是 Pretrain 还是 Finetune,“数据质量”都比“模型结构”要更加重要。实际上,数据对模型结构仍带来更高的提升,正好说明了transformer结构的强大,在大数据下,依旧具有非常强的学习能力,目前仍然没有完全达到它的极限。>>Falcon主张的思想是仅使用“互联网语料”(不需要额外数据源)就可以训练一个不错的大模型:Falcon提出仅使用“清洗后的互联网数据”就能够让模型比在“精心构建的数据集”上有更好的效果。只要对数据进行严格的数据清洗,即便是只使用“互联网语料”也能够让 LLM 学会各种技能。
>>定义人工精选数据集(非互联网数据的统称):根据论文的叙述,GPT-3和 The Pile的数据集中,除了 CC 数据集之外,都还加入了一些额外的数据集,比如:维基百科、书籍、Github、ARXiv 论文等,借此来让 LLM 直接学会一些技能(写代码、读论文等)。在 Falcon 的 Paper 中,这些非互联网数据都被统一称为:人工精选数据集(curated corpora)。尽管这类数据集质量较高,但却不那么容易扩展。
该研究旨在探索如何利用网络数据进行语言模型的训练,并提出了一个名为"RefinedWeb"的数据集。首先介绍了计算规模对自然语言处理的推动作用,以及现有策划语料库的挑战,如人工标注、专业领域限制和数据量有限。接着,文章回顾了与大型语言模型的预训练数据相关的工作,并介绍了网络数据处理的流程和去重技术。在MRD流程(宏观数据精炼)和RefinedWeb部分,文章详细介绍了文档准备、筛选和去重的过程,并说明了每个阶段的操作和原则。实验部分比较了使用网络数据集和策划语料库训练的语言模型的性能,并证明了RefinedWeb的筛选和去重在提高性能方面的显著效果。通过处理网络数据构建高质量的语言模型训练数据集,并展示了这种方法在提高性能方面的优势。
实际上,MRD流程的后续阶段几乎删除了最初在CommonCrawl中的90%的文档。值得注意的是,过滤和去重各自导致可用数据减半:约有50%的文档因为不是英文而被丢弃,剩下的24%因为质量不够而被丢弃,还有12%因为是文档重复而被丢弃。
目录
数据可用性瓶颈:如GPT-3这样一个1750亿参数的模型至少需要3500亿token
Pretraining data for large language models大型语言模型的预训练数据
早期句子级的数据集→意识到连贯文档的重要性→以文档为中心→聚合数据集是趋势=大量网络爬取的数据+有限的人工筛选高质量
CC数据集(12年)依旧存在低质和不良→现代流程关注过滤→多阶段【利用n-gram进行语种筛选+过滤规则和启发式算法+ML算法识别+去重】→过度筛选也会引出偏见
删除重复片段(完全匹配【suffix arrays】、近似匹配【MinHash+SimHash】+近期提出采用预训练模型的嵌入)+去重重要性(减少记忆)+重复数据特别影响大参数模型
构建高质量的三方面:整合多个管线+逐行纠正、同时进行完全和近似去重、最终数据集规模突出
3、Macrodata Refinement and RefinedWeb宏观数据精炼MDR和RefinedWeb
URL过滤:针对欺诈和或成人网站+过滤2规则(黑名单+URL评分)
文本提取:使用trafilatura进行文本提取网页有意义文本内容+正则表达式格式化+同时删除所有URL
语言识别得到RW-RAW(得到原文档48%):使用CCNet的fastText的字符n-gram语言分类器+移除语言分数低于0.65的文档+专注英语
3.2、Filtering: document-wise and line-wise筛选:基于文档和基于行的过滤
Repetition removal去重处理:利用启发式算法
Document-wise filtering基于文档的筛选:利用质量筛选启发式算法+去掉机器生成的垃圾内容(属于非人话不利于LLMs建模)+不同语种的筛选规则不一样
MDR流程得到RW-FILTERED(RW-Raw文档50%):筛选启发式算法
3.3、Deduplication: fuzzy, exact, and across dumps去重处理:模糊匹配、精确匹配和跨数据集的去重
Fuzzy deduplication模糊去重:文档级别、MinHash算法
Exact deduplication精确去重:子字符串级别、suffix array算法
Models模型:基于decoder-only+ALiBi+FlashAttention+训练数据集(在RefinedWeb+The Pile)
4.2、Can web data alone outperform curated corpora?仅使用网络数据能否超越精选语料库?