最全高质量大模型 -偏好数据集（不定期更新）

DatasetQuest

已于 2024-09-15 19:23:45 修改

阅读量1k

点赞数 10

文章标签：语言模型

于 2024-09-15 19:06:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011559552/article/details/142287393

版权

大模型中的偏好数据集，就好比是给一个超级学霸特别定制的教材，这些教材里的内容都是这个学霸特别感兴趣或者特别擅长的。这样一来，学霸就能在这些领域里学得更快、更深入，而不是在所有科目上平均用力。

简单来说，就是让大模型在它擅长或者感兴趣的领域里更加出色。

偏好数据集的三个优点包括：

提高效率：就像学霸专注于自己擅长的科目，大模型也能更快地学习和掌握偏好数据集中的信息，这样就能节省时间和资源。
增强专业性：通过专注于特定的数据，大模型可以在这个领域里变得更加专业，就像一个专门研究烹饪的厨师，做出来的菜肯定更美味。
减少干扰：如果大模型什么都学，可能会被一些不那么重要的信息分散注意力。有了偏好数据集，它就能更专注于那些真正重要的信息，就像在嘈杂的教室里，戴上耳塞就能更专心学习一样。

数据集：rpr|偏好分析数据集|上下文感知数据集

发布时间：2024-07-26
发布机构：Microsoft
链接地址：rpr|偏好分析数据集|上下文感知数据集
数据集介绍：Reasonable Preference Reversal (RPR) Dataset是一个合成条件-条件偏好数据集，包含超过20000个配对元组，包括提示、上下文（标准或场景）和偏好判断。该数据集的设计确保了在没有上下文的情况下，两个完成的偏好是完全模糊的，从而测试模型对上下文的关注和解释能力。数据集主要用于训练和评估上下文感知偏好模型，特别是在需要上下文理解和偏好确定的任务中。数据集由Silviu Pitis等人创建，主要语言为英语。

数据集：argilla/distilabel-capybara-dpo-7k-binarized|多轮对话数据集|偏好调整

发布时间：2024-07-16
发布机构：argilla
链接地址：argilla/distilabel-capybara-dpo-7k-binarized|多轮对话数据集|偏好调整数据集
数据集介绍：CapybaraDPO-7k是一个多轮对话偏好数据集，用于微调开源大型语言模型(LLMs)的聊天能力。该数据集包含物理、生物、数学等多个学科领域的对话，通过distilabel工具处理，提供了详细的对话结构，包括输入、输出、选择的响应和拒绝的响应及其评分。数据集还提供了使用示例，指导用户如何利用这些数据进行DPO微调，以提升模型的多轮对话处理能力。

数据集：shibing624/medical|医疗，偏好数据集数据集

发布时间：2024-06-16
链接地址：shibing624/medical|医疗，偏好数据集数据集
数据集介绍：medical是一个中文医疗数据集，包含预训练、微调和奖励三个部分，用于医疗领域大模型训练。预训练部分使用医疗百科和教材数据，微调部分使用医疗对话和问诊数据，奖励部分用于评估模型回答的质量。数据集支持中文医疗对话模型的训练，数据主要为中文。

数据集：NUSTM/judgment-consistency-preference-dat|对话系统

发布时间：2024-06-07
链接地址：NUSTM/judgment-consistency-preference-data|对话系统数据集
数据集介绍：这是一个偏好数据集，旨在增强模型在面对干扰时的判断一致性，适用于DPO算法。数据集包含2607个从算术、常识、符号和知识推理数据集中采样的提示，每个提示伴随一对响应：一个‘选定’响应和一个‘拒绝’响应。数据集设计了一个包含一轮后续提问干扰的对话场景，模型在面对后续提问时的可能判断类型有True-True、False-True、False-False和True-False。数据集的偏好排序为True-True ≻ False-True ≻ False-False ≻ True-False。此外，数据集还考虑了模型响应对指令的遵守程度，因此在‘拒绝’响应中保留了一部分答案正确但未严格遵循指令输出格式的样本。数据集以parquet格式存储，每个条目包含数据集名称、ID、问题、真实答案、SFT评分、偏好评分、选定响应和拒绝响应等信息。

数据集：kaist-ai/Multifaceted-Collection-ORPO|语言模型训练数据集|偏好对齐

发布时间：2024-05-28
链接地址：kaist-ai/Multifaceted-Collection-ORPO|语言模型训练数据集|偏好对齐数据集
数据集介绍：Multifaceted Collection ORPO是一个用于将大型语言模型（LLMs）与多样化人类偏好对齐的偏好数据集。该数据集包含65k条独特的指令，每条指令选择一个系统消息并将与之对齐的响应标记为“chosen”，同时从其余两个非对齐系统消息中选择一个响应作为“rejected”。数据集的创建涉及从五个现有高质量偏好数据集中采样指令，并使用GPT-4 Turbo生成系统消息和标准答案。该数据集适用于文本生成和偏好优化任务。

数据集：openbmb/RLHF-V-Dataset|多模态学习数据集|人工智能反馈数据集

发布时间：2024-05-28

发布机构：openbmb

链接地址：openbmb/RLHF-V-Dataset|多模态学习数据集|人工智能反馈数据集

数据集介绍：RLHF-V-Dataset是一个用于多模态语言模型的人类偏好数据集，包含5,733个偏好对，涵盖了多样化的指令，包括详细的描述和问答指令。该数据集通过细粒度的人类反馈来提高模型的可信度和减少模型的幻觉现象。

数据集：Hummer|偏好数据集数据集|AI对齐优化数据集

发布时间：2024-05-20
发布机构：麦吉尔大学, 北京大学, 蚂蚁集团
链接地址：Hummer|偏好数据集数据集|AI对齐优化数据集
数据集介绍：Hummer是一个创新的成对偏好数据集，旨在减少对齐目标之间的竞争。该数据集基于UltraFeedback构建，并通过GPT-4的AI反馈进行了增强，成为首个旨在减少对齐目标间竞争的偏好数据集。Hummer通过三阶段过程构建：偏好与目标标注、对齐目标细化及数据集分割。数据集的应用领域包括特定领域的进一步微调和减少对攻击的脆弱性，旨在通过优先考虑某些对齐目标而不牺牲其他目标的性能来解决特定问题。

数据集：RLAIF-V-Dataset - 大规模多模态偏好数据集

发布时间：2024-05-19
发布机构：OpenBMB
链接地址：RLAIF-V-Dataset - 大规模多模态偏好数据集
数据集介绍：RLAIF-V-Dataset是OpenBMB构建的一个大规模多模态偏好数据集。该数据集是由AI生成的偏好数据集，涵盖各种任务和领域，包含44,757组高质量对比对。RLAIF-V-数据集通过一个新颖的方法，采用开源大模型来对模型响应进行去混杂处理，并提供高质量的反馈。该数据集应用在了MiniCPM-Llama3-V 2.5模型的训练中，MiniCPM-Llama3-V 2.5 是第一个具有 GPT-4V 性能的端侧多模态大模型。RLAIF-V-Dataset可以有效减少不同多模态大模型的幻觉。

数据集：HC3-Chinese|文本分析数据集|偏好数据集数据集

发布时间：2024-05-09
发布机构：maas
链接地址：HC3-Chinese|文本分析数据集|偏好数据集数据集
数据集介绍：HC3 （Human ChatGPT Comparison Corpus）数据集，它由近 40K 个问题及其相应的人类/ChatGPT 答案组成。基于 HC3 数据集，我们进行了广泛的研究，包括人工评估、语言分析和内容检测实验。人类评价和语言学分析为我们提供了对人类和 ChatGPT 之间隐性差异的洞察，这激发了我们对 LLMs 未来方向的思考。

数据集：wenbopan/Chinese-dpo-pairs|偏好数据集数据集|机器翻译数据集

发布时间：2024-04-02
链接地址：wenbopan/Chinese-dpo-pairs|偏好数据集数据集|机器翻译数据集
数据集介绍：Chinese-dpo-pairs 数据集包含 10K 个精心整理的中文参考对，这些数据是通过GPT-3.5从多个来源翻译而来，包括flan_v2, sharegpt, ultrachat, evol_instruct, false_qa, open_orca, 和 truthy_dpo。数据集的特征包括prompt, system, chosen, rejected, source, 和 id，主要用于对齐训练，共有10735个样本。

数据集：CodeUltraFeedback|偏好数据集数据集|AI模型校准数据集

发布时间：2024-03-14
发布机构：蒙特利尔大学DIRO
链接地址：CodeUltraFeedback|偏好数据集数据集|AI模型校准数据集
数据集介绍：CodeUltraFeedback是由蒙特利尔大学DIRO创建的一个包含10,000个复杂指令的数据集，旨在通过AI反馈调整和校准大型语言模型（LLMs）以符合编程偏好。该数据集通过14种不同的LLMs生成响应，并使用GPT-3.5作为评判标准，提供数值和文本反馈。数据集内容涵盖指令遵循、代码解释、代码复杂性和效率、代码可读性以及编码风格等五个非功能性要求（或编程偏好）。CodeUltraFeedback不仅用于校准LLMs，还支持了如UltraFeedback、AI反馈的强化学习（RLAIF）和LLM作为评判者等先进校准技术的开发。此外，该数据集还促进了CODAL-Bench的建立，这是一个评估LLMs与编程偏好对齐的基准。

数据集：Awesome-LLMs-Datasets|大型语言模型数据集|NLP数据集数据集

发布时间：2024-01-17
链接地址：Awesome-LLMs-Datasets|大型语言模型数据集|NLP数据集数据集
数据集介绍：该仓库总结了现有代表性的大型语言模型文本数据集，涵盖五个维度：预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集。此外，还新增了多模态大型语言模型数据集和检索增强生成数据集等部分。

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。