最全高质量大模型 -预训练数据集（不定期更新）

数据猎手小k

已于 2024-09-15 19:21:22 修改

阅读量3.3k

点赞数 11

文章标签：语言模型

于 2024-09-13 18:15:30 首次发布

本文链接：https://blog.csdn.net/u011559552/article/details/142217358

版权

大模型中的预训练数据集就像是给模型喂的“食物”，这些“食物”的质量和种类直接影响到模型的“成长”和“智慧”。通俗来说，预训练数据集有以下3个特点：

1、量大：预训练数据集通常包含海量的数据，这就像是给模型提供了丰富的“食物”，让它能够学习到更多的知识和信息。想象一下，如果一个人从小接触到各种各样的书籍和知识，他长大后就会更加聪明和有见识。

2、多样化：数据集覆盖了多种类型和领域的内容，这意味着模型能够接触到不同的“风味”，从而学习到更广泛的知识。就像一个人如果尝试过各种不同的食物，他的口味就会更加丰富，对食物的理解和欣赏也会更深。

3、迁移学习能力强：预训练的模型就像是有了良好基础的学生，当它被应用到新的、具体的任务时，能够更快地学习和适应。这就像是一个人如果已经掌握了一门语言，再学习第二门语言时就会容易得多。

数据集：Chinese Fineweb Educhinese-fineweb-edu|教育数据集|预训练数据集

发布时间：2024-08-26
链接地址：chinese-fineweb-edu|教育数据集|自然语言处理数据集
数据集介绍：Chinese Fineweb Edu 数据集是一个精心构建的高质量中文预训练语料数据集，专为教育领域的自然语言处理任务设计。该数据集通过严格的筛选和去重流程，利用少量数据训练打分模型进行评估，从海量的原始数据中提取出高价值的教育相关内容，确保数据的质量和多样性。最终，数据集包含约90M条高质量的中文文本数据，总大小约为300GB。

数据集：IndustryCorpus_technology|行业模型训练数据集|预训练数据集数据集

发布时间：2024-07-25
发布机构：Beijing Academy of Artificial Intelligence
链接地址：IndustryCorpus_technology|行业模型训练数据集|预训练数据集数据集
数据集介绍：该数据集是为了解决行业模型训练中数据量不足、质量低和缺乏领域专业知识的问题而构建的。通过应用22个行业数据处理操作符，从超过100TB的开放源数据集中筛选出3.4TB的高质量多行业分类的中英文预训练数据集，包括1TB的中文数据和2.4TB的英文数据。数据集进行了12种类型的标签标注，并经过了行业分类语言模型的过滤和文档级别的去重处理。数据集涵盖了18个行业类别，并针对每个行业类别提供了数据大小。为了验证数据集的性能，还进行了持续预训练、SFT和DPO训练，结果显示性能有显著提升。

数据集：IndustryCorpus_mathematics|数学数据集|预训练数据集数据集

发布时间：2024-07-25
发布机构：Beijing Academy of Artificial Intelligence
链接地址：IndustryCorpus_mathematics|数学数据集|预训练数据集数据集
数据集介绍：本数据集是一个高质量的多行业分类中英文预训练数据集，通过22个行业数据处理操作符从超过100TB的开放源数据集中筛选出3.4TB的高质量数据，包括1TB的中文数据和2.4TB的英文数据。数据集涵盖18个行业类别，并进行了详细的标注和过滤处理，如传统中文转换、电子邮件和IP地址移除、链接移除、Unicode修复等。此外，数据集还进行了模型训练验证，显示了显著的性能提升。

数据集：IndustryCorpus_agriculture|农业数据集|预训练数据集数据集

发布时间：2024-07-25
发布机构：Beijing Academy of Artificial Intelligence
链接地址：IndustryCorpus_agriculture|农业数据集|预训练数据集数据集
数据集介绍：该数据集是通过应用22个行业数据处理操作符，从超过100TB的开放源数据集中筛选出的3.4TB高质量多行业分类的中英文预训练数据集。筛选后的数据包括1TB的中文数据和2.4TB的英文数据，并进行了12种类型的标签标注。数据集涵盖18个行业类别，包括医疗、教育、文学、金融等，并提供了各行业类别的数据大小。

数据集：dclm-baseline-1.0-parquet|预训练数据集数据集|自然语言处理数据集

发布时间：2024-07-01
链接地址：dclm-baseline-1.0-parquet|预训练数据集数据集|自然语言处理数据集
数据集介绍：DCLM-baseline 是一个包含4万亿个标记和30亿个文档的预训练数据集，由DCLM团队精心策划，使用英语，并根据CC-by-4.0许可证发布。该数据集源自Common Crawl，经过一系列清洗、过滤和去重步骤处理，特别适用于作为DCLM基准的研究基线。

数据集：TigerResearch/pretrain_zh|对话系统数据集|预训练数据集数据集

发布时间：2023-06-14
链接地址：TigerResearch/pretrain_zh|预训练数据集数据集
数据集介绍：该数据集是Tigerbot项目的中文预训练部分，包含12G的中文书籍、25G的中文互联网文本和19G的中文百科内容，总计56G。数据集用于中文预训练，包含多种中文文本资源，适合用于训练中文自然语言处理模型。

数据集：OmniCorpus - 最大开源图文交错数据集|多模态数据集数据集|人工智能研究

发布时间：2024-06-12
发布机构：上海人工智能实验室、哈尔滨工业大学、南京大学、复旦大学等
链接地址：OmniCorpus - 最大开源图文交错数据集|多模态数据集数据集|
数据集介绍：OmniCorpus由上海人工智能实验室联合多所知名高校及研究机构共同构建，是迄今为止最大的多模态数据集。该数据集包含了86亿张图像和1696亿个文本Token，支持中英双语。与现有的数据集相比，其在以下方面具有显著优势：1）更大的数据规模：与之前最大的多模态数据集LAION-5B相比，OmniCorpus的数据集在图像方面大了1.7倍，在文本方面大了12.5倍，同时保持了出色的数据质量。2）更丰富的数据多样性：从更广泛的数据源中提取数据，OmniCorpus数据集比其他图像-文本交错数据集更具多样性。它包括中英文双语多模态数据，并包括从常见网站和视频平台提取的以文本为中心和以视觉为中心的文档。3）更灵活的格式：OmniCorpus的流式数据格式提供了非凡的灵活性，允许适应各种数据结构，包括纯文本语料库、图像-文本对和交错数据格式。数据集制作pipeline由五个关键阶段组成：主体提取、初步文本过滤、文档重复数据消除、图像下载和过滤以及详细文本过滤。每个阶段都有效地减少数据集，只保留高质量的数据。OmniCorpus的多语言特性和高质量数据为多模态机器学习模型提供了丰富的训练资源，推动了人工智能领域的研究进展。

数据集：Zyda - 包含1.3万亿Token的开源预训练数据集|语言模型数据集|预训练数据集

发布时间：2024-06-07
链接地址：Zyda|大型语言模型数据集|数据预处理数据集
数据集介绍：Zyda数据集是由Zyphra公司创建的一个大型语言模型预训练数据集。该数据集通过整合多个开源数据集并进行深度处理来构建，包含了1.3万亿Token，其质量接近商业语料。Zyda数据集的创建过程包括了严格的过滤和去重处理，以保持和提高从原始数据集中派生出的质量。实验结果表明，使用Zyda训练的语言模型在多项评估任务上，性能优于其他同类数据集，如Dolma、FineWeb和RefinedWeb。Zyda的发布为开源社区提供了一个高质量的、大规模的预训练语料库，为开源语言模型研究奠定数据基础。

数据集：VishnuPJ/Malayalam_CultureX_IndicCorp_SMC|预训练数据集

发布时间：2024-06-05
链接地址：VishnuPJ/Malayalam_CultureX_IndicCorp_SMC|预训练数据集
数据集介绍：用于马来语预训练和分词的预处理和合并数据集，数据来源包括ai4bharat、CulturaX和Swathanthra Malayalam Computing。预处理步骤包括去除非马来语字符、合并文本文件以及去除少于5个字符的行。数据集包含文本特征，分为训练和测试集，具有相应的字节数和示例数。

数据集：m-a-p/Matrix|语言模型数据集|预训练数据集数据集

发布时间：2024-06-03
链接地址：m-a-p/Matrix|语言模型数据集|预训练数据集数据集
数据集介绍：Matrix是一个包含46900亿个标记的开源预训练数据集，支持英语和中文双语，用于训练新型模型。该数据集由多个源自不同领域的组件构成，包括Common Crawl、代码、论文、书籍、指导材料、考试、新闻、维基和专利，每个组件在语言建模和处理中都有不同的用途。

数据集：开放新闻库（OpenNewsArchive）|新闻文本数据集|预训练数据集数据集

发布时间：2024-04-28
发布机构：OpenDataLab
链接地址：开放新闻库（OpenNewsArchive）|新闻文本数据集|预训练数据集数据集
数据集介绍：此开放新闻库数据集是由OpenDataLab、联合蜜度、商汤等多家联盟机构进行开源开发，其中包含了880万篇新闻文章的信息，涵盖了各种不同主题和来源的新闻内容。

数据集：BAAI-CCI 2.0|中文语料库数据集|预训练数据集数据集

发布时间：2024-04-19
发布机构：北京智源人工智能研究院
链接地址：BAAI-CCI 2.0|中文语料库数据集|预训练数据集数据集
数据集介绍：一个规模为500GB的高质量中文互联网语料库

数据集：MAP-CC|自然语言处理数据集|预训练数据集数据集

发布时间：2024-04-05
发布机构：Multimodal Art Projection 、复旦大学、北京大学等
链接地址：MAP-CC|自然语言处理数据集|预训练数据集数据集
数据集说明：MAP-CC是一个开源的中文预训练数据集，其规模达到了800亿个词汇(token)。它提供了一套详细的中文网络语料库清洗流程，为自然语言处理(NLP)社区提供了高质量的中文预训练数据和有效的数据准备方法。这个数据集由多模态艺术投影(Multimodal Art Projection)、复旦大学、北京大学等机构共同研发。它包含了来自不同数据源的多个子集，如博客、新闻文章、中文百科全书、中文学术论文、中文图书等。通过精心设计的数据清洗和筛选流程，MAP-CC提高了中文网络语料库的质量，为学术界和工业界提供了宝贵的资源。此外，MAP-CC数据集的构建突破了传统以英文数据为主的训练模式，为非英语语言，特别是中文的深度学习和理解能力提供了新的研究范式。这对于推动中文及其他非英语语言的NLP研究和应用具有重要意义。

数据集：LLM360/CrystalCoderDatasets|预训练数据集数据集|代码生成数据集

发布时间：2024-04-02
发布机构：LLM360
链接地址：LLM360/CrystalCoderDatasets|预训练数据集数据集|代码生成数据集
数据集介绍：该数据集整合了CrystalCoder训练中使用的全部数据序列，包括来自三个预训练阶段的数据，总计约1300亿个token。这些token分布在三个阶段，每个阶段使用不同的数据源和处理方法。第一阶段使用SlimPajama数据集的一半，约345亿个token；第二阶段使用剩余的SlimPajama数据和StarCoder数据的两轮迭代，总计927亿个token；第三阶段重新使用StarCoder数据中的Python和网页相关数据，以及部分SlimPajama数据，总计约110亿个token。此外，还使用了多种指令调优数据集，总计约10亿个token，以增强模型在实际聊天场景中的能力。

数据集：出门问问序列猴子开源数据集|自然语言处理数据集|预训练数据集数据集

发布时间：2024-02-05
链接地址：出门问问序列猴子开源数据集|自然语言处理数据集|预训练数据集数据集
数据集介绍：序列猴子是出门问问提供的超大规模语言模型，基于其通用的表示与推理能力，支持多轮交互，能够大幅度提高生产效率和数据处理能力，被广泛应用于问答系统、自然语言处理、机器翻译、文本摘要等领域。序列猴子数据集是用于训练序列猴子模型的数据集合，现选择部分数据集向公众开放。序列猴子开源数据集1.0为序列猴子数据集的首个开源版本，涉及以下领域：中文通用文本语料、古诗今译语料、文本生成语料。

数据集：Chinese-Poetry 最全中文诗歌古典文集数据库|中文诗歌数据集|预训练数据集

发布时间：2024-02-01
链接地址：Chinese-Poetry 最全中文诗歌古典文集数据库|中文诗歌数据集|预训练数据集
数据集介绍：该数据集是最全的中华古典文集数据库，包含 5.5 万首唐诗、 26 万首宋词、 2.1 万首宋词等古典文集。诗人包括唐宋两朝近 1.4 万古诗人，和两宋时期 1.5k 古词人。数据来源于互联网。

数据集：WanJuan2.0 (WanJuan-CC)|自然语言处理数据集|预训练数据集数据集

发布时间：2024-01-15
发布机构：OpenDataLab
链接地址：WanJuan2.0 (WanJuan-CC)|自然语言处理数据集|预训练数据集数据集
数据集介绍：WanJuan-CC 是从CommonCrawl获取的一个 1T Tokens 的高质量英文网络文本数据集。结果显示，与各类开源英文CC语料在 Perspective API 不同维度的评估上，WanJuan-CC都表现出更高的安全性。此外，通过在4个验证集上的困惑度（PPL）和6下游任务的准确率，也展示了WanJuan-CC的实用性。WanJuan-CC在各种验证集上的PPL表现出竞争力，特别是在要求更高语言流畅性的tiny-storys等集上。通过与同类型数据集进行1B模型训练对比，使用验证数据集的困惑度（perplexity）和下游任务的准确率作为评估指标，实验证明，WanJuan-CC显著提升了英文文本补全和通用英文能力任务的性能。

数据集：SkyPile-150B 综合性大规模中文数据集|预训练数据集数据集|中文语言模型

发布时间：2024-01-11
发布机构：昆仑万维
链接地址：SkyPile-150B 综合性大规模中文数据集|预训练数据集数据集|中文语言模型数据集
数据集介绍：SkyPile-150B 是专门为大型语言模型预训练而设计的综合性大规模中文数据集。它源自大量可公开访问的中国互联网网页。数据集采用严格的过滤、广泛的重复数据删除和彻底的敏感数据过滤来确保其质量。此外，研究人员还利用 fastText 和 BERT 等先进工具来过滤掉低质量的数据。