LLMs之Falcon:《The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and

529 篇文章 418 订阅
321 篇文章 223 订阅
《The RefinedWeb Dataset for Falcon LLM》研究探讨了如何利用网络数据构建高质量语言模型。通过宏数据精炼(MDR)流程,创建了5万亿个token的RefinedWeb数据集,它在训练LLMs时超越了传统策划语料库。文章详述了数据预处理、筛选和去重技术,证明仅使用清洗过的互联网数据就能实现更好的模型性能。
摘要由CSDN通过智能技术生成

LLMs之Falcon:《The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only》翻译与解读

导读:2023年6月1日,Falcon 是由TII(阿联酋阿布扎比技术创新研究)发布的大语言模型,包含 1B、7B、40B 三种规模。该模型曾因其在 40B 上的性能超越 65B LLaMA 而被人们广泛关注。尽管近期有文章指出,排行榜对 LLaMA 的计算可能存在一些问题,Falcon 并不一定真正击败 LLaMA,不过这并不影响人们对这一开源且参数更小的强大模型的给与极高的关注度。

Falcon = 基于decoder-only+ALiBi+FlashAttention+训练数据集(在RefinedWeb+The Pile)1B/7B/40B+侧重严格数据清洗的MRD流程+基于RefinedWeb互联网数据集【5000B的token】和人工精选数据集(精选+过滤+去重)
>>Falcon靠洗数据击败 LLaMA本文章是一篇更侧重于“数据清洗”的论文,Falcon靠洗数据击败 LLaMA,一直在证明,不管是 Pretrain 还是 Finetune,“数据质量”都比“模型结构”要更加重要。实际上,数据对模型结构仍带来更高的提升,正好说明了transformer结构的强大,在大数据下,依旧具有非常强的学习能力,目前仍然没有完全达到它的极限

>>Falcon主张的思想是仅使用“互联网语料”(不需要额外数据源)就可以训练一个不错的大模型:Falcon提出仅使用“清洗后的互联网数据”就能够让模型比在“精心构建的数据集”上有更好的效果。只要对数据进行严格的数据清洗,即便是只使用“互联网语料”也能够让 LLM 学会各种技能。

>>定义人工精选数据集(非互联网数据的统称):根据论文的叙述,GPT-3和 The Pile的数据集中,除了 CC 数据集之外,都还加入了一些额外的数据集,比如:维基百科、书籍、Github、ARXiv 论文等,借此来让 LLM 直接学会一些技能(写代码、读论文等)。在 Falcon 的 Paper 中,这些非互联网数据都被统一称为:人工精选数据集(curated corpora)。尽管这类数据集质量较高,但却不那么容易扩展。
        该研究旨在探索如何利用网络数据进行语言模型的训练,并提出了一个名为"RefinedWeb"的数据集。首先介绍了计算规模对自然语言处理的推动作用,以及现有策划语料库的挑战,如人工标注、专业领域限制和数据量有限。接着,文章回顾了与大型语言模型的预训练数据相关的工作,并介绍了网络数据处理的流程和去重技术。在MRD流程(宏观数据精炼)和RefinedWeb部分,文章详细介绍了文档准备、筛选和去重的过程,并说明了每个阶段的操作和原则。实验部分比较了使用网络数据集和策划语料库训练的语言模型的性能,并证明了RefinedWeb的筛选和去重在提高性能方面的显著效果。通过处理网络数据构建高质量的语言模型训练数据集,并展示了这种方法在提高性能方面的优势。
        实际上,MRD流程的后续阶段几乎删除了最初在CommonCrawl中的90%的文档。值得注意的是,过滤和去重各自导致可用数据减半:约有50%的文档因为不是英文而被丢弃,剩下的24%因为质量不够而被丢弃,还有12%因为是文档重复而被丢弃。

目录

《The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only》翻译与解读

Abstract摘要

1、Introduction引言

计算规模驱动NLP发展

数据可用性瓶颈:如GPT-3这样一个1750亿参数的模型至少需要3500亿token

策划语料库的挑战:人工、专业、数据量有限、是否许可

探索如何更好的处理网络数据

2、Related works相关工作

Pretraining data for large language models大型语言模型的预训练数据

早期句子级的数据集→意识到连贯文档的重要性→以文档为中心→聚合数据集是趋势=大量网络爬取的数据+有限的人工筛选高质量

Pipelines for web data网络数据的流程

CC数据集(12年)依旧存在低质和不良→现代流程关注过滤→多阶段【利用n-gram进行语种筛选+过滤规则和启发式算法+ML算法识别+去重】→过度筛选也会引出偏见

Deduplication去重

删除重复片段(完全匹配【suffix arrays】、近似匹配【MinHash+SimHash】+近期提出采用预训练模型的嵌入)+去重重要性(减少记忆)+重复数据特别影响大参数模型

构建高质量的三方面:整合多个管线+逐行纠正、同时进行完全和近似去重、最终数据集规模突出

3、Macrodata Refinement and RefinedWeb宏观数据精炼MDR和RefinedWeb

MDR流程得到5万亿个token的RefinedWeb

设计原则:考虑规模+严格去重+中立筛选(ML算法筛选)

3.1、Document preparation: reading data, filtering URLs, extracting text, and language identification文档准备:读取数据,过滤URL,提取文本和语言识别

读取数据:使用warcio库读取CC数据集的WARC文件

URL过滤:针对欺诈和或成人网站+过滤2规则(黑名单+URL评分)

文本提取:使用trafilatura进行文本提取网页有意义文本内容+正则表达式格式化+同时删除所有URL

语言识别得到RW-RAW(得到原文档48%):使用CCNet的fastText的字符n-gram语言分类器+移除语言分数低于0.65的文档+专注英语

3.2、Filtering: document-wise and line-wise筛选:基于文档和基于行的过滤

Repetition removal去重处理:利用启发式算法

Document-wise filtering基于文档的筛选:利用质量筛选启发式算法+去掉机器生成的垃圾内容(属于非人话不利于LLMs建模)+不同语种的筛选规则不一样

基于行的纠正:设计纠正筛选器+5%阈值

MDR流程得到RW-FILTERED(RW-Raw文档50%):筛选启发式算法

3.3、Deduplication: fuzzy, exact, and across dumps去重处理:模糊匹配、精确匹配和跨数据集的去重

文档间去重:去重成本高、算法(模糊文档匹配+精确序列删除)

Fuzzy deduplication模糊去重:文档级别、MinHash算法

补充内容—The pile是825G的明显优于Raw CC和CC-100、高质量、全英文数据集:《The pile: An 800gb dataset of diverse text for language modeling》

Exact deduplication精确去重:子字符串级别、suffix array算法

URL deduplication去重:URL层面的去重

4、Experiments

4.1、Setting设置

Evaluation评估

Models模型:基于decoder-only+ALiBi+FlashAttention+训练数据集(在RefinedWeb+The Pile)

4.2、Can web data alone outperform curated corpora?仅使用网络数据能否超越精选语料库?

小规模研究—只有预训练数据集不同:基于相同架构和代码+不同流行公共网络数据集(OSCAR-2019、The Pile、RefinedWeb)横向比较数据集的性能——证明了RefinedWeb筛选和去重都显著提高了性能

全尺寸模型:GPT-3系列、FairSeq系列、OPT系列、PaLM-8B等+EleutherAI LM评估

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值