大模型开源数据集合整理和说明

暮海星辰

已于 2024-08-22 14:36:35 修改

阅读量701

点赞数 18

文章标签：开源

于 2024-05-02 15:49:56 首次发布

本文链接：https://blog.csdn.net/haixiao0720/article/details/138339485

版权

大模型开源数据集合整理

预训练数据集
指令微调数据集

预训练数据集

数据集合	语言	大小	说明
wikipeida	中文	0.5G	知识类高质量语料
Linly-AI/Chinese-pretraining-dataset	中文	15G	中英文平行语料，英文翻译
CLUE Corpus small 14G	中文	14G	1、新闻语料 news2016zh_corpus: 8G语料，分成两个上下两部分，总共有2000个小文件。2、社区互动-语料 webText2019zh_corpus：3G语料，包含3G文本，总共有900多个小文件。3、维基百科-语料 wiki2019zh_corpus：1.1G左右文本，包含300左右小文件。 4、评论数据-语料 comments2019zh_corpus：2.3G左右文本，共784个小文件，包括点评评论547个、亚马逊评论227个，合并ChineseNLPCorpus的多个评论数据，清洗、格式转换、拆分成小文件。
CLUECorpus2020	中文	100G	通过对Common Crawl的中文部分进行语料清洗，最终得到100GB的高质量中文预训练语料。
WuDaoCorpora Text	中文	200G	采用20多种规则从100TB原始网页数据中清洗得出最终数据集，包含教育、科技等50+个行业数据标签，可以支持多领域预训练模型的训练。
昆仑万维-天工	中文	600G	SkyPile-150B是一个专为大型语言模型预训练设计的综合性大规模中文数据集，它源自广泛公开可获取的中文互联网网页。为了保证数据质量，我们采用了严格的过滤、大量重复数据的剔除以及彻底的敏感数据筛选措施。此外，我们还利用了fastText和BERT等先进工具来过滤掉低质量的数据。SkyPile-150B数据集中公开可获取的部分包含大约2.33亿个独一无二的网页，集涵盖了约1500亿个词元和620GB的纯文本数据。
MNBVC	中文	31T	law_judgement: 来自法律文书的文本。gov_xuexiqiangguo: 来自学习强国的文本。gov_report: 来自政府工作报告的文本。co_ann_report: 企业年报文本。code_metadata: 代码元数据。qa_zhihu: 来自知乎的问答数据。qa_wikihow: 来自wikihow的问答数据。qa_mfa: 外交部问答数据。news_peoples_daily: 来自人民日报的文本数据。wikipedia: 来自维基百科的文本数据。qa_stackexchange: 来自StackExchange的问答数据。qa_chatgpt: 使用ChatGPT构造的问答语料。math_qa: 和数学领域有关的问答数据。math_chat: 和数学领域有关的对话数据数据，可以提升模型Chain of Thought的能力。crawler_oscar: 从CommonCrawl中清洗出来的通用文本数据。
Wanjuan 1.0	中文	1T	书生·万卷文本数据集1.0由来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料组成，数据总量超过5亿个文档，数据大小超过1TB。该语料将html、text、pdf、epub等多种格式的数据统一处理为字段统一的jsonl格式，并经过细粒度的清洗、去重、价值对齐，形成了一份安全可信、高质量的预训练语料。
falcon-refinedweb	英文	2.8T	RefinedWeb是通过对CommonCrawl进行严苛的过滤和大规模去重构建的；我们发现，在仅依赖网络数据的情况下，基于RefinedWeb训练的模型能够达到与在精心策划数据集上训练的模型相当或更优的性能。
wikipeida	英文、德文、法文	500G	知识类高质量语料
RedPajama-1T	英文	1T	CommonCrawl 我们从CommonCrawl下载了五个数据包，在段落级别进行去重，并使用一个线性分类器过滤低质量文本，该分类器旨在将段落分类为维基百科引用或CommonCrawl随机样本。C4：C4数据集从Hugging Face下载。唯一的预处理步骤是将其转换为我们自己的格式。GitHub：原始的GitHub数据从Google BigQuery下载。我们在文件级别进行去重，过滤掉低质量文件，仅保留使用MIT、BSD或Apache许可协议分发的项目。Wikipedia：我们使用Hugging Face上提供的Wikipedia数据集，该数据集基于2023年3月20日的Wikipedia数据转储，包含20种不同语言的文本。该数据集以预处理格式提供，因此已移除了超链接、评论和其他格式化冗余内容。ArXiv：ArXiv数据从Amazon S3的arxiv请求者付费存储桶下载。我们仅保留Latex源文件，并移除前言、注释、宏定义和参考文献部分。Stackexchange：数据集的Stack Exchange部分从Internet Archive下载。这里我们仅保留来自28个最大站点的帖子，移除HTML标签，将帖子按问题-答案对进行分组，并按答案得分排序。
RedPajama-Data-v2	英文、德文、法文、意大利、西班牙文	30T	包含来自84个CommonCrawl的超过1000亿份文本文档，这些文档已使用CCNet流程进行了处理。其中，有300亿份文档在语料库中还附带有质量信号，另有200亿份文档经过了去重处理。
SlimPajama	英文、德文、法文、意大利、西班牙文	627B	SlimPajama是通过对RedPajama数据集进行清洗和去重而创建的。通过滤除低质量数据和重复内容，我们成功移除了49.6%的数据量，除了数据本身，我们还发布用于创建SlimPajama的工具。对于RedPajama这样的万亿词级数据集应用MinHashLSH去重，使用现有的开源代码是不可能实现的。我们对现有解决方案进行了多项改进，构建了一个能够在分布式、多线程和内存高效模式下对万亿词数据集执行MinHashLSH去重的基础设施。
Pile	英文	1.25TB	由许多较小的数据集组合而成，包括Pile-CC，PubMedCentral、Books3、ArXiv、GitHub、FreeLaw等
C4	英文	305G	经过清理的Common Crawl网页爬取语料库版本
wikipedia-ja	日文	7G	日语知识类语料
OSCAR-ja	日文	16.17B
Japanese CC-100	日文	285G	日文网页语料
Japanese C4	日文	300G	日文网页语料
CulturaX	167种多语言	16TB	数据集结合了最新版本的mC4（版本3.1.0）与至今当年所有可获取的OSCAR语料库，包括20.19、21.09、22.01和23.01版本。经过深度清洗和去重处理后，包含16TB的Parquet格式数据。
MAP-CC	中文	300G	网页 (Chinese Common Crawl)：84.7%；百科（Chinese Encyclopedias）：0.3%; 文章(Chinese Academic Papers):3.7%；书籍(Chinese Books):4.2%；
fineweb	英文	15T tokens	FineWeb数据集包含了超过1.5万亿个来自CommonCrawl的经过清洗和去重的tokens。在datatrove库上进行了预处理
japanese-nsfw-syosetsu-dataset	日文	0.35G	日文R18数据集合
tiny-textbooks	英语	900M	1、tiny-strange-textbooks: 包含270万本涉及各种主题的奇特教科书。2、tiny-codes: 收集了160万个简短清晰的代码片段，有助于LLM模型学习如何推理。3、tiny-math-textbooks: 包含635,000本关于各种数学主题的简短教科书。4、tiny-orca-textbooks: 合成教科书，帮助模型学习如何在上下文中正确执行任务。5、tiny-webtext: 一个6GB（450万条记录）的多样化网络文本集合，富含批判性思维方法，旨在创建一个无偏见的英语数据集。6、tiny-lessons: 该数据集的一个子集，涵盖了“互联网事物”的各种课程，以易于消化的教科书Markdown格式增强。7、tiny-bridgedict: 一个数据集，用于在英语、越南语和中文之间链接和转移知识，适用于小型多语言模型。
textbook-codex	英语	5.71G	英文书籍数据集合
AutoMathText	英语	200G	包括多个网站、arXiv和GitHub（OpenWebMath、RedPajama、Algebraic Stack）。该资源库中的每项内容都由最先进的开源语言模型Qwen-72B自动筛选（标记），并被赋予一个范围在[0, 1]之间的lm_q1q2_score，以反映其在数学智能背景下的相关性、质量和教育价值。
ChineseEncyclopedia	中文	1G	中文百科语料，非百度百科或wikipedia
cosmopedia	英语	92G	由Mixtral-8x7B-Instruct-v0.1生成的合成数据集，包含了教科书、博客文章、故事、帖子和WikiHow文章等多种类型的内容。

指令微调数据集

数据集合	语言	大小	说明
COIG-CQIA	中文	4w	COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need，是一个开源的高质量指令微调数据集，旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。包活社交媒体&论坛、通用百科、通用NLP任务、考试&试题、人类价值观、中国传统文化、金融&经管领域、医疗领域、法律领域
OpenHermes-2.5	英文	100w	多个开源指令集合的集成，包括聊天、学科、基础指令、Cot等等
ruozhiba	中文	1.4K	弱智吧精选问题数据，回答相对简洁
MathInstruct	英文	26w	数学领域数据指令集合包含Cot和Pot数据
CodeFeedback-Filtered-Instruction	英文	15w	代码指令数据。采取了一个严格的过滤流程筛选出最复杂且信息量最大的指令。这一流程包括使用Qwen-72B-Chat进行选择性过滤。由大型语言模型(LLM)评估编译数据集中的代码查询及其对应的响应，给予它们从1到5的复杂度评分，仅保留被评为4或5分的查询作为种子集。这一精细的过滤过程最终产生了15.6万个高质量的单轮代码指令。
deepctrl-sft	中文、英文	26w	匠数大模型SFT数据集是一个由匠数科技精心搜集整理的高质量数据集。这个数据集的目标是为广大用户提供一个完整、格式统一、安全的大模型训练和研究资源。我们从网络上的公开数据源收集并整理了大量开源数据集，对其进行了格式统一，数据清洗，并使用本公司的内容审核产品对其内容进行了严格的审核，最终获得了用于大模型SFT的包含10M条数据的中文数据集和包含2M条数据的英文数据集。随后，我们按照任务内容将其分为50类，并获得了每一类数据的关键词。
auto-wiki-qa	日语	238w	截至 2024 年 4 月，它是日语最大的免费 QA 数据集。此外，由于没有使用基于规则的处理（例如模板）来生成数据，因此问题和答案的输出和格式比现有数据集更加多样化。使用日语维基百科作为源文本，每篇文章随机提取并连接三个或更少的段落，并且排除太短的文本并提供上下文。排除歧义页面和列表页面。此外，从生成的问题和答案中，根据规则排除似乎无效的文本。具体来说，您可以删除太长的问题（通常是复制和粘贴句子）或太短的问题（通常是低质量，例如只写出句子中的单词），或者删除格式错误的案例。
llm-japanese-dataset	日语	900w	包括多种任务问答，日语问答。简短（大部分10字以内）、英文翻译成日文任务等。用于 LLM 建设的日语教学（聊天）数据集
nekomata-14b-instruction	日语	900w	Databricks Dolly data、Japanese Databricks Dolly data、FLAN Instruction Tuning data and its Japanese translation、Izumi lab LLM Japanese dataset 几个集合整理出来的
chatbot_arena_conversations	日语	3.3w	该数据集包含 33K 条经过清理的对话，其中包含成对的人类偏好。它是从 2023 年 4 月到 6 月期间从Chatbot Arena上的 13K 个唯一 IP 地址收集的。包含20个LLMs的输出。
lmsys-chat-1m	日语	3.3w	该数据集包含 25 个LLMs的 100 万次现实世界对话。它是从 2023 年 4 月至 8 月期间在Vicuna 演示和 Chatbot Arena 网站上收集的 21 万个唯一 IP 地址。包含25个SOTA LLMs 100万次现实世界对话拟合真实世界用户提示的特征和分布
WebInstructSub	英语	200w	高质量微调数据集，由文档生成问答对后进行精炼，包括数学、物理、化学、生物、paper、代码等
do-not-answer	英语	900	该数据集经过精心策划和过滤，仅包含那些负责任的语言模型不应回答的提示。
jaster	日语	-	质量比较高的日语微调集合，集成了是一个集成了以下NLP数据集训练数据的数据 Jamp / JaNLI / JCommonsenseQA / JEMHopQA / JNLI / JSeM / JSICK / JSQuAD / JSTS / NIILC，使用较为广泛
dolly	日语	1.5w	databricks-dolly-15k翻译而来的日语版本, 使用大模型翻译
oasst1 oasst2	日语	2.1w	OpenAssistant 对话数据集中的 DeepL 翻译的数据集。
answer-carefully	日语	5w	类似do not answer的指令攻击和价值观对齐样本

待整理：
https://huggingface.co/datasets/anthracite-org/Stheno-Data-Filtered
https://huggingface.co/datasets/anthracite-org/kalo-opus-instruct-22k-no-refusal
https://huggingface.co/datasets/anthracite-org/nopm_claude_writing_fixed
https://huggingface.co/datasets/BAAI/Infinity-Instruct