大模型指令微调数据集(自用)

1.MMDU(Multi-Turn Multi-Image Dialog Understanding)

大型视觉语言模型(LVLMs)的核心能力之一是生成自然且有意义的回答,从而能够与人类进行流畅的图文对话。

尽管目前开源的LVLMs在如单轮单图输入等简化场景中展示出了不错的潜力,但在具有长上下文长度,且需要多轮对话和多图输入的真实对话场景中,表现则相对不足。

此外,现有的LVLM Benchmarks主要采用单项选择题或简短回答的形式,难以全面评估LVLMs在真实世界人机互动应用中的表现。

为此,研究团队在论文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多图多轮评测基准MMDU及大规模指令微调数据集MMDU-45k,旨在评估和提升LVLMs在多轮及多图像对话中的性能。

(摘抄自一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实...-CSDN博客

 数据集下载地址:laolao77/MMDU · Datasets at Hugging Face

2. InfinityInstruct

-----虽然主要关注点可能不在图像上,但作为一个大规模的指令微调数据集,它可能包含涉及图像理解的任务。

InfinityInstruct-3M 启动千万级指令微调数据集 / 数据集 / 超神经

文本弱智吧数据1https://github.com/FunnySaltyFish/Better-Ruozhiba/blob/main/ruozhiba_qa.json
图像Ospreyhttps://huggingface.co/datasets/AntGroup-MI/Osprey-724K
图像MMDU-45khttps://huggingface.co/datasets/laolao77/MMDU?row=0
图像LAMM-Dataset 包括一个包含 186,098 个图像语言指令-响应对的图像指令调整数据集和一个包含 10,262 个点云语言指令-响应对的点云指令调整数据集。OpenDataLab 引领AI大模型时代的开放数据平台
文本InfinityInstruct-3MInfinityInstruct-3M 启动千万级指令微调数据集 / 数据集 / 超神经
文本M2Lingual 多语言多轮次指令微调数据集M2Lingual 多语言多轮次指令微调数据集 / 数据集 / 超神经
文本中文问答数据集https://github.com/DRCKnowledgeTeam/DRCD
文本由BELLE项目生成的约200万个中文指令数据OpenDataLab 引领AI大模型时代的开放数据平台
文本AgentInstructhttps://huggingface.co/datasets/THUDM/AgentInstruct
图像GeoChat Instruct 数据集是一个为遥感领域设计的多模态指令跟踪数据集https://huggingface.co/datasets/MBZUAI/GeoChat_Instruct
  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值