WanJuan-CC数据集:为大型语言模型训练提供高质量Webtext资源

上海人工智能实验室的OpenDataLab团队开发了一种处理CommonCrawl网页数据的方法,生成了高质量的英文网络文本数据集WanJuan-CC。论文介绍了数据提取、过滤和安全策略,显示WanJuan-CC在语言模型性能和安全性方面优于其他开源数据集,为大模型训练提供了实用方案。
摘要由CSDN通过智能技术生成

 Datawhale干货 

作者:虹桥北北

如何在参差不齐的海量网页数据中提炼高质量内容?如何保证模型训练数据的质量和安全性,如何构建高效的处理策略?上海人工智能实验室的这篇论文提供了一种不错的参考方案。

众多大语言模型成果表明,基于大规模数据预训练,即使在无需标注数据微调的情况下,也能在各类NLP任务中展现出优异的性能。

根据大模型的训练过程中,最优模型参数量、训练数据量和总计算开销之间所存在的 规模定律(Scaling Law) 来看,要训练出更强大的模型,需要更多的模型参数量和更大的预训练数据。有研究显示,训练一个拥有175B参数量的语言模型大约需要3.7TTokens的高质量预训练数据。然而,传统的从特定数据源收集并进行定制清洗的数据方案已经无法满足这种规模的数据需求,这对预训练数据集的构建工作提出了新的挑战。

为此,上海人工智能实验室OpenDataLab团队设计了一套针对CommonCrawl网页数据的处理流程,包括数据提取、启发式规则过滤、模糊去重、内容安全过滤以及数据质量过滤等多个步骤,可实现高效生产 内容安全高质量数据 两大核心目标。

通过这一流程,他们从CommonCrawl中高效获取了一个1.0T Tokens的高质量英文网络文本数据集——WanJuan-CC。结果显示,与各类开源英文CC语料在PerspectiveAPI不同维度的评估上,WanJuan-CC都表现出更高的安全性。此外,通过在4个验证集上的困惑度(PPL)和6个下游任务的准确率,也展示了WanJuan-CC的实用性。

WanJuan-CC在各种验证集上的PPL表现出竞争力,特别是在要求更高语言流畅性的tiny-storys等数据集上。通过与同类型数据集进行1B模型训练对比,使用验证数据集的困惑度(perplexity)和下游任务的准确率作为评估指标,实验证明,WanJuan-CC显著提升了英文文本补全和通用英文能力任务的性能。

b516f0f834f77101e9cd51e717e64639.png

论文链接:https://arxiv.org/abs/2402.19282

### 小学数学大规模模型训练数据集 对于专门针对小学数学科目的大型语言模型训练,虽然通用的大规模多源文本数据集WanJuan 1.0 Text提供了广泛的内容覆盖[^2],但这些并不特定于教育领域尤其是小学数学教学内容。 #### 教育专用数据集特点 理想的适用于小学数学的教学型大数据集合应该具备如下特性: - **针对性强**:专注于K-6年级的算术、几何基础概念以及应用题解法等内容; - **结构化程度高**:不仅限于纯文字描述,还应包含题目表述、解答过程及标准答案等结构性信息; - **质量控制严格**:经过精心筛选和校验以确保知识点准确性,并排除错误示范案例; #### 可能适用的小学数学数据资源 尽管当前公开可用并完全满足上述条件的数据集较为稀缺,但仍有一些潜在的选择可以考虑: - **教材教辅材料数字化版本**:官方出版的小学数学课本及其配套练习册电子版可作为高质量的基础资料来源; - **在线学习平台积累的学习记录**:像好未来、作业帮这样的国内知名在线辅导机构积累了海量的真实学生答题情况,经脱敏处理后可用于构建个性化推荐系统或辅助评估算法性能; - **竞赛试题库**:各类小学生奥林匹克数学比赛历年真题汇编也是很好的补充素材,有助于增强模型应对复杂逻辑推理的能力。 ```python # 示例代码展示如何加载本地存储的一个小型小学数学问题CSV文件到pandas DataFrame中以便进一步分析 import pandas as pd df_math_problems = pd.read_csv('elementary_school_math_questions.csv') print(df_math_problems.head()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值