Datawhale干货
作者:虹桥北北
如何在参差不齐的海量网页数据中提炼高质量内容?如何保证模型训练数据的质量和安全性,如何构建高效的处理策略?上海人工智能实验室的这篇论文提供了一种不错的参考方案。
众多大语言模型成果表明,基于大规模数据预训练,即使在无需标注数据微调的情况下,也能在各类NLP任务中展现出优异的性能。
根据大模型的训练过程中,最优模型参数量、训练数据量和总计算开销之间所存在的 规模定律(Scaling Law) 来看,要训练出更强大的模型,需要更多的模型参数量和更大的预训练数据。有研究显示,训练一个拥有175B参数量的语言模型大约需要3.7TTokens的高质量预训练数据。然而,传统的从特定数据源收集并进行定制清洗的数据方案已经无法满足这种规模的数据需求,这对预训练数据集的构建工作提出了新的挑战。
为此,上海人工智能实验室OpenDataLab团队设计了一套针对CommonCrawl网页数据的处理流程,包括数据提取、启发式规则过滤、模糊去重、内容安全过滤以及数据质量过滤等多个步骤,可实现高效生产 内容安全 与 高质量数据 两大核心目标。
通过这一流程,他们从CommonCrawl中高效获取了一个1.0T Tokens的高质量英文网络文本数据集——WanJuan-CC。结果显示,与各类开源英文CC语料在PerspectiveAPI不同维度的评估上,WanJuan-CC都表现出更高的安全性。此外,通过在4个验证集上的困惑度(PPL)和6个下游任务的准确率,也展示了WanJuan-CC的实用性。
WanJuan-CC在各种验证集上的PPL表现出竞争力,特别是在要求更高语言流畅性的tiny-storys等数据集上。通过与同类型数据集进行1B模型训练对比,使用验证数据集的困惑度(perplexity)和下游任务的准确率作为评估指标,实验证明,WanJuan-CC显著提升了英文文本补全和通用英文能力任务的性能。
论文链接:https://arxiv.org/abs/2402.19282