CCNET:Common Crawl 处理流程

本文介绍了如何使用 CCNET 清洗 Common Crawl 的大规模数据集,包括预处理、去重、语言识别和质量筛选四个步骤。通过去重、语言识别和 perplexity 分数筛选,构建高质量的单语言数据集。该流程在 5000 CPU 核心上运行,针对 Common Crawl 的快照进行处理,为 NLP 领域提供有价值的预训练资源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

预训练的文本表征在 NLP 领域带来了非常大的影响,而预训练数据的文本质量和数量会十分影响预训练模型的效果。在 GPT-3 的训练中,Common Crawl 占了百分之六十(如下图所示),是一个非常重要的数据来源。

Common Crawl 是一个海量的、非结构化的、多语言的网页数据集。它包含了超过 8 年的网络爬虫数据集,包含原始网页数据(WARC)、元数据(WAT)和文本提取(WET),拥有PB级规模,可从 Amazon S3 上免费获取。

然而从网络上爬取下来的原始数据非常杂乱,因此这篇文章介绍一下 facebook 的一个工作,对 common crawl 的清洗策略,CCNET。

数据地址: http://commoncrawl.org/the-data/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值