多模态思维链数据集是一种专门设计用于训练和评估人工智能模型在处理包含多种信息模态(如文本、图像、声音等)的复杂问题时的推理能力的数据集。 这些数据集通常包含了丰富的多模态信息,以及对应的问题和答案,有时还包括了问题的解决过程或解释,以帮助模型学习如何结合不同模态的信息来解决问题。
多模态思维链数据集的应用主要包括:
1、训练和评估多模态推理模型:
-
通过这些数据集,研究人员可以训练模型来理解复杂问题,并学习如何结合多种信息模态来生成准确的答案和解释。
2、提高模型的可解释性:
-
通过生成解释或推理过程,这些数据集有助于提高模型的透明度,使得模型的决策过程更容易被理解和信任。
3、推动多模态人工智能研究:
-
这些数据集为研究人员提供了新的挑战和工具,以探索如何更好地整合和利用多模态信息,推动人工智能在多模态理解方面的进步。
12-24 :新增:
数据集:public_long_form_thought_data_5k|慢思考推理数据集|认知科学数据集
- 创建时间:2024-12-12
- 数据集介绍:公开的长形式思维数据集,包含5000条数据,用于训练和研究慢思考推理系统。
- 链接地址:public_long_form_thought_data_5k|慢思考推理数据集|认知科学数据集
数据集:AI-MO-NuminaMath-CoT-korean-240905|数学教育数据集|思维训练
-
创建时间:2024-09-05
-
数据集介绍:数据集包含约86万道数学题,每道题的解答都以思维链(Chain of Thought, CoT)的方式格式化。数据来源包括中国高中数学练习题、美国和国际数学奥林匹克竞赛题。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。数据集目前正在进行翻译,已完成63.80%。
数据集:NuminaMath-CoT|数学教育数据集|思维链技术数据集
-
创建时间:2024-07-16
-
数据集介绍:数据集包含约86万道数学题目,每道题目的解答都采用思维链(Chain of Thought, CoT)格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。
数据集:HPAI-BSC/medical-fields
-
更新时间:2024-07-11
-
数据集介绍:该数据集旨在评估医学语言模型。它将多个重要的医学问答数据集合并成统一格式,并将其分类为35个不同的医学领域。这种结构使用户能够识别模型性能可能不足的特定领域,并相应地解决这些问题。数据集包括id、问题、选项、正确选项、源数据集名称、预测的医学领域、医学领域的思维链以及CoT医学领域的对数概率等字段。该数据集使用Llama-3-70B-Instruct模型将医学问题分类到预定义的医学领域中创建。
数据集:LightChen2333/M3CoT|多模态数据集|思维链数据集
-
更新时间:2024-05-28
-
数据集介绍:M3CoT数据集是一个新颖的多域、多步骤、多模态链式思维基准,旨在解决当前多模态链式思维基准面临的挑战,如视觉模态推理的缺失、单步视觉模态推理以及域的缺失。该数据集包含多种特征,如id、类别、图像id、问题、选项、上下文、答案、理由、分割、图像、领域和主题,并分为训练、验证和测试分割。数据集适用于图像到文本的任务,并标记有多种模态和链式思维标签。数据集遵循cc-by-sa-4.0许可证,主要使用英语。
数据集:cookinai/TRRR-CoT|模型改进数据集|思维链方法数据集
-
更新时间:2024-04-11
-
数据集介绍:该数据集是一个合成数据集,其输入来自高质量的CoT数据集,输出由Mixtral模型生成,并通过TRRR方法(包括思考、响应、反思和再次响应四个步骤)进行格式化,旨在改进模型的响应。目前正在等待基准测试来评估这种应用CoT到模型的方法。
数据集:pharaouk/samantha-data-cot-en|文本生成数据集|思维链训练数据集
-
更新时间:2024-04-10
-
数据集介绍:Samantha Data CoT English数据集是一个专为文本生成任务设计的英语数据集,包含input、output、human、machine和final_answer等特征。数据集分为训练集,共有34687个例子,总大小为156813873字节。该数据集是[ehartford/samantha-data](https://huggingface.co/datasets/ehartford/samantha-data)的重新包装版本,特别为CoT设计。数据集的输入和输出格式详细规定,旨在让模型学习生成答案而不依赖任何工具。数据集遵循Apache License 2.0。