预训练的文本表征在 NLP 领域带来了非常大的影响,而预训练数据的文本质量和数量会十分影响预训练模型的效果。在 GPT-3 的训练中,Common Crawl 占了百分之六十(如下图所示),是一个非常重要的数据来源。
Common Crawl 是一个海量的、非结构化的、多语言的网页数据集。它包含了超过 8 年的网络爬虫数据集,包含原始网页数据(WARC)、元数据(WAT)和文本提取(WET),拥有PB级规模,可从 Amazon S3 上免费获取。
然而从网络上爬取下来的原始数据非常杂乱,因此这篇文章介绍一下 facebook 的一个工作,对 common crawl 的清洗策略,CCNET。
数据地址: http://commoncrawl.org/the-data/