LLMs之Falcon：《The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and

一个处女座的程序猿

已于 2023-09-10 22:41:17 修改

阅读量1.2k

点赞数 3

分类专栏：精选(人工智能+AIGC)-高级 NLP/LLMs AI/AGI 文章标签：人工智能自然语言处理基础大模型

于 2023-06-10 02:53:36 首次发布

本文链接：https://blog.csdn.net/qq_41185868/article/details/131137560

版权

精选(人工智能+AIGC)-高级同时被 3 个专栏收录

126 篇文章 ¥199.90 ¥299.90

订阅专栏

NLP/LLMs

760 篇文章

订阅专栏

AI/AGI

337 篇文章

订阅专栏

《The RefinedWeb Dataset for Falcon LLM》研究探讨了如何利用网络数据构建高质量语言模型。通过宏数据精炼（MDR）流程，创建了5万亿个token的RefinedWeb数据集，它在训练LLMs时超越了传统策划语料库。文章详述了数据预处理、筛选和去重技术，证明仅使用清洗过的互联网数据就能实现更好的模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LLMs之Falcon：《The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only》翻译与解读

导读：2023年6月1日，Falcon 是由TII(阿联酋阿布扎比技术创新研究)发布的大语言模型，包含 1B、7B、40B 三种规模。该模型曾因其在 40B 上的性能超越 65B LLaMA 而被人们广泛关注。尽管近期有文章指出，排行榜对 LLaMA 的计算可能存在一些问题，Falcon 并不一定真正击败 LLaMA，不过这并不影响人们对这一开源且参数更小的强大模型的给与极高的关注度。

Falcon = 基于decoder-only+ALiBi+FlashAttention+训练数据集(在RefinedWeb+The Pile)1B/7B/40B+侧重严格数据清洗的MRD流程+基于RefinedWeb互联网数据集【5000B的token】和人工精选数据集(精选+过滤+去重)
>>Falcon靠洗数据击败 LLaMA：本文章是一篇更侧重于“数据清洗”的论文，Falcon靠洗数据击败 LLaMA，一直在证明，不管是 Pretrain 还是 Finetune，“数据质量”都比“模型结构”要更加重要。实际上，数据对模型结构仍带来更高的提升，正好说明了transformer结构的强大，在大数据下，依旧具有非常强的学习能力，目前仍然没有完全达到它的极限。

>>Falcon主张的思想是仅使用“互联网语料”（不需要额外数据源）就可以训练一个不错的大模型：Falcon提出仅使用“清洗后的互联网数据”就能够让模型比在“精心构建的数据集”上有更好的效果。只要对数据进行严格的数据清洗，即便是只使用“互联网语料”也能够让 LLM 学会各种技能。

>>定义人工精选数据集(非互联网数据的统称)：根据论文的叙述，GPT-3和 The Pile的数据集中，除了 CC 数据集之外，都还加入了一些额外的数据集，比如：维基百科、书籍、Github、ARXiv 论文等，借此来让 LLM 直接学会一些技能（写代码、读论文等）。在 Falcon 的 Paper 中，这些非互联网数据都被统一称为：人工精选数据集（curated corpora）。尽管这类数据集质量较高，但却不那么容易扩展。
该研究旨在探索如何利用网络数据进行语言模型的训练，并提出了一个名为"RefinedWeb"的数据集。首先介绍了计算规模对自然语言处理的推动作用，以及现有策划语料库的挑战，如人工标注、专业领域限制和数据量有限。接着，文章回顾了与大型语言模型的预训练数据相关的工作，并介绍了网络数据处理的流程和去重技术。在MRD流程(宏观数据精炼)和RefinedWeb部分，文章详细介绍了文档准备、筛选和去重的过程，并说明了每个阶段的操作和原则。实验部分比较了使用网络数据集和策划语料库训练的语言模型的性能，并证明了RefinedWeb的筛选和去重在提高性能方面的显著效果。通过处理网络数据构建高质量的语言模型训练数据集，并展示了这种方法在提高性能方面的优势。
实际上，MRD流程的后续阶段几乎删除了最初在CommonCrawl中的90%的文档。值得注意的是，过滤和去重各自导致可用数据减半：约有50%的文档因为不是英文而被丢弃，剩下的24%因为质量不够而被丢弃，还有12%因为是文档重复而被丢弃。