最全高质量大模型 -指令调优数据集（2024-11-15已更新）

数据猎手小k

已于 2024-11-15 16:46:48 修改

阅读量2.3k

点赞数 49

文章标签：人工智能

于 2024-09-13 18:19:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011559552/article/details/142188146

版权

指令调优数据集就像是模型的“速成班”，给它明确的指导，让它在各种任务中都能快速上手，成为我们生活中的得力助手。

个性化指导：首先，它就像是给模型的一对一辅导，我告诉模型，“嘿，这里有个任务，你需要这么做。” 然后给它展示正确的做法。这种数据集就是由这样的“任务和正确答案”组成的，帮助模型学习如何按照指令行动。
全能选手：这种数据集覆盖了各种各样的任务，比如写作文、回答问题、甚至聊天。这意味着模型经过这样的调优后，就能在多种场景下都能表现得像个真正全能选手。
快速学习：最后，指令调优数据集能让模型学得更快。就像是给了模型一个加速器，让它在短时间内就能掌握很多新技能。这样，我们就能更高效地利用模型，更快地解决实际问题。

11/15新增

数据集：Leopard-Instruct|多模态数据集|指令微调数据集

创建时间：2024-11-08
数据集介绍：Leopard-Instruct数据集是由腾讯AI实验室的研究团队于2024年创建的，旨在解决多模态任务中的指令遵循问题。该数据集包含925,000个实例，其中739,000个专门用于文本丰富、多图像场景。Leopard-Instruct的构建旨在支持Leopard-LLaVA和Leopard-Idefics2模型的训练，这些模型在多模态理解和生成任务中表现出色。通过整合多种数据源，如arxiv、chartgemma和webvision等，该数据集为研究者提供了一个全面的资源，以推动多模态学习领域的发展。
链接地址：Leopard-Instruct|多模态数据集|指令微调数据集

10/28新增

数据集：Infinity-MM|多模态数据数据集|模型训练数据集

创建时间：2024-10-15
链接地址：Infinity-MM|多模态数据数据集|模型训练数据集
数据集介绍：Infinity-MM 是一个大规模的多模态指令数据集，包含数千万个样本。通过质量过滤和去重，数据集具有高质量和多样性。数据集分为四个阶段，每个阶段包含不同类型的数据，如图像-字幕数据、通用视觉指令数据、选择性视觉指令数据和 GPT4 与合成数据。数据集的语言包括英语和中文，并且来自多个平台。数据集与 Aquila-VL-2B 模型一起使用，该模型在相同规模的模型中达到了最先进的性能。

10/06新增

数据集：OpenMathInstruct-2|数学问题生成数据集|指令调优

创建时间：2024-09-29
链接地址：OpenMathInstruct-2|数学问题生成数据集|指令调优
数据集介绍：OpenMathInstruct-2是一个数学指令调优数据集，包含1400万个问题-解决方案对。这些数据对是通过使用Llama3.1-405B-Instruct模型生成的。数据集的构建基于GSM8K和MATH训练集的问题，通过解决方案增强和问题-解决方案增强两种方式生成新的问题和解决方案。数据集包含四个主要字段：问题、生成的解决方案、预期答案和问题来源。预期答案对于训练集中的问题是从数据集中提供的真实答案，而对于增强的问题则是通过多数投票得出的答案。数据集还包括一个污染探索器，用于查找与GSM8K、MATH、AMC 2023、AIME 2024和Omni-MATH测试集问题相似的问题。此外，还发布了一系列基于此数据集训练的OpenMath2模型，并提供了代码、模型和数据集的链接，以及如何重现结果的详细说明。

数据集：LLM Fine-Tuning Dataset - Question Answering|语言模型微调数据集

发布时间：2024-09-27
链接地址：LLM Fine-Tuning Dataset - Question Answering|语言模型微调数据集|自然语言处理数据集
数据集介绍：该数据集包含超过400万条记录，涵盖32种语言，专为语言模型训练设计。它包括来自3个模型的日志和响应对，旨在通过指令微调来提高各种自然语言处理任务的性能。

数据集：MURI-IT|多语言处理数据集｜指令调优

发布时间：2024-09-19
链接地址：MURI-IT|多语言处理数据集｜指令调优
数据集介绍：MURI-IT 是一个多语言指令调优数据集，包含超过220万条指令-输出对，涵盖200种语言。该数据集通过多语言逆向指令生成，确保了文化与语言的细微差别得以保留，避免了直接翻译带来的常见问题。

数据集：distilabel-reflection-tuning|AI模型调优数据集|复杂概念生成数据集

发布时间：2024-09-06
链接地址：复杂概念生成｜调优数据集
数据集介绍：distilabel-reflection-tuning 数据集是使用 Distilabel 工具创建的合成数据集。它包含指令、模型名称和生成的输出示例，以及关于原始输入和输出文本的元数据。数据集结构包含默认配置，并包括包含 5 个示例的训练分割。该数据集旨在用于 AI 模型的反思调优，特别是用于分析和生成对复杂概念（如结合咖啡店、书店和餐厅的想法）的响应。该数据集可以使用提供的管道脚本和配置文件进行重现。

数据集：对话-百科（中文）训练集

发布时间：2024-07-13
链接地址：对话百科｜调优数据集
数据集介绍：欢迎踏入“多元知识宝典”的殿堂，这里是您的私人炼金术士专属原料库！无论您旨在构建聊天机器人，还是希望通过语料库掌握seq2seq或Transformer技术，这个拥有10万条精选中文对话的宝库都将为您提供助力。为了强化模型对人类语言语义的深刻理解和提高其在面对未知数据时的表现，我们在构建数据集的过程中采取了一种策略，即刻意纳入了一系列语义等价但表达形式各异的询问实例。这一策略的核心目的在于训练模型识别并掌握自然语言的多态性，从而显著增强其泛化能力。

数据集：Magpie-Qwen2-Pro-200K-Chinese|中文问答数据集|模型生成数据数据集

发布时间：2024-06-26
发布机构：Magpie Alignment
链接地址：中文问题回答
数据集介绍：该数据集由 Qwen/Qwen2-72B-Instruct 模型使用Magpie方法生成，包含200,000个样本，主要用于中文问题回答任务。数据集特征丰富，包括uuid、模型名称、生成输入配置、指令、响应、对话、任务类别等。数据集通过过滤确保高质量，如输入质量至少为'good'，指令奖励大于等于-10，语言为中文，并移除重复和不完整的指令。

数据集：BAAI/Infinity-Instruct|指令数据集数据集|指令微调数据集

发布时间：2024-06-13
发布机构：北京智源人工智能研究院
地址地址：文本生成任务
数据集介绍：Infinity Instruct是一个大规模高质量指令数据集，主要用于文本生成任务，包含英文和中文两种语言，数据量在1M到10M之间。数据集的构建基于大量的开源数据，通过指令选择和指令进化两种策略进行迭代。数据集分为基础数据集和聊天数据集两类，分别用于提升模型在复杂下游任务和实际对话场景中的性能。数据来源包括多个开源社区的数据集，如OpenHermes-2.5、UltraInteract_sft等。数据集的构建过程中，还采用了GPT-4自动评估和下游任务性能评估，以确保数据集的质量和实用性。

数据集：shi-labs/CuMo_dataset|机器学习数据集|自然语言处理数据集

发布时间：2024-05-06
发布机构：shi-labs
链接地址：模型视觉指令
数据集介绍：CuMo数据集是一个用于多阶段训练的集合，包括预训练、预微调和视觉指令调优。预训练阶段使用LLaVA-558K数据集来预训练MLP，预微调阶段使用ALLaVA数据集，而视觉指令调优阶段则整合了多个数据集，如LLaVA-665K、ShareGPT4V等，以增强模型的视觉指令处理能力。所有数据集的使用均遵循各自的原始许可证。

数据集：shareAI/DPO-zh-en-emoji|聊天机器人数据集|指令微调数据集

发布时间：2024-06-04
发布机构：shareAI
链接地址：聊天机器人
数据集介绍：一个带有趣味文字表情的机器人聊天对话数据集，包含中文和英文版本，可用于SFT/DPO训练。数据集中的问题来源于知乎、逻辑推理和Weichi Bar，使用llama3 70b instruct版本生成，每个问题对应一个中文和一个英文答案，用于对齐语言模型的语种和语言风格。此外，数据集还可用于传统的训练方法如SFT/ORPO，以提升模型的逻辑推理和复杂问题解答能力。

数据集：llama3 中文化数据集|自然语言处理数据集|中文语言模型数据集

发布时间：2024-05-29
链接地址：中文语言模型
数据集介绍：该数据集为 llama3 中文化数据集集合，已统一处理为 firefly 格式，可以配合 firefly 工具直接训练 llama3 中文模型。

数据集：CMNEE（Chinese Military News Event Extraction dataset）|自然语言处理数据集|军事新闻分析数据集

发布时间：2024-04-18
发布机构：国防科技大学、东南大学、清华大学
链接地址：中文军事新闻
数据集介绍：CMNEE（Chinese Military News Event Extraction dataset）是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件，所有事件均基于预定义的军事领域模式人工标注，包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略，首先通过权威网站获取军事新闻文本并预处理，然后依据触发词字典进行预标注，经领域专家审核后形成事件模式。随后，通过人工分批、迭代标注并持续修正，直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集，对推动相关研究具有显著意义。

数据集：zjunlp/iepile|信息抽取数据集|大规模语料库数据集

发布时间：2024-04-09
发布机构：浙江大学
链接地址：大规模信息抽取预料库
数据集介绍：IEPile是一个大规模的信息抽取语料库，专注于基于模式的指令型信息抽取。该语料库包含约0.32B个标记，涵盖通用、医疗、金融等多个领域。IEPile采用了一种基于模式的批量指令生成方法，成功地创建了一个高质量的IE微调数据集。该数据集支持英语和中文，并已用于微调Baichuan2-13B-Chat和LLaMA2-13B-Chat模型，这些模型在完全监督的训练集上表现出色，并在零样本信息抽取任务中取得了显著的改进。

数据集：zhengr/COIG-CQIA|中文NLP数据集|指令微调数据集

发布时间：2024-03-26
链接地址：人类交互行为
数据集介绍：COIG-CQIA是一个开源的高质量中文指令微调数据集，旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。该数据集从中文互联网的问答和文章中获取原始数据，经过深度清洗、重构及人工审核构建而成。数据格式为JSON，包含多个字段，如instruction、input、output等，用于描述指令、输入、输出及相关任务和领域信息。

数据集：pinzhenchen/alpaca-cleaned-bg

发布时间：2024-03-06
链接地址：保加利亚语指令调优
数据集说明：该HF数据仓库包含用于我们单语与多语指令调优研究的保加利亚语Alpaca数据集。数据集通过机器翻译从yahma/alpaca-cleaned数据集转换而来，包含约52K个实例，每个实例包括指令、输出和一个可选的输入。数据集主要用于保加利亚语指令调优。

数据集：DeepCtrl-sft-data 匠数科技大模型sft数据集|自然语言处理数据集|指令微调数据集

发布时间：2024-04-30
链接地址：自然语言处理
数据集介绍：用于大模型SFT的包含10M条数据的中文数据集和包含2M条数据的英文数据集。随后，我们按照任务内容将其分为50类，并获得了每一类数据的关键词。

数据集：M³IT：多模式多语言指令调优数据集|视觉语言理解数据集|机器学习数据集

发布时间：2024-01-19
链接地址：视觉语言理解数据集
数据集介绍： 该数据集由 40 个数据集组成，其中包括 240 万个实例和 400 条手动编写的任务指令，并重新格式化为视觉到文本结构。数据集编译了经典视觉语言任务的各种任务，包括字幕、视觉问答（VQA）、视觉条件生成、推理和分类。

数据集：KAgent Instruct 指令调优数据集|人工智能数据集|自然语言处理数据集

发布时间：2024-01-16
链接地址：人工智能数据集
数据集介绍：KAgent Instruct 是 Kwai Agents (Github) 提出的指令调优数据集，是快手科技 KwaiKEG 开源的 Agent 相关系列作品。它包含超过 200k 条与代理相关的指令微调数据（部分由人工编辑）。请注意，该数据集不包含论文中提到的通用类型数据。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。