1.MMDU(Multi-Turn Multi-Image Dialog Understanding)
大型视觉语言模型(LVLMs)的核心能力之一是生成自然且有意义的回答,从而能够与人类进行流畅的图文对话。
尽管目前开源的LVLMs在如单轮单图输入等简化场景中展示出了不错的潜力,但在具有长上下文长度,且需要多轮对话和多图输入的真实对话场景中,表现则相对不足。
此外,现有的LVLM Benchmarks主要采用单项选择题或简短回答的形式,难以全面评估LVLMs在真实世界人机互动应用中的表现。
为此,研究团队在论文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多图多轮评测基准MMDU及大规模指令微调数据集MMDU-45k,旨在评估和提升LVLMs在多轮及多图像对话中的性能。
(摘抄自一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实...-CSDN博客)
数据集下载地址:laolao77/MMDU · Datasets at Hugging Face
2. InfinityInstruct
-----虽然主要关注点可能不在图像上,但作为一个大规模的指令微调数据集,它可能包含涉及图像理解的任务。
InfinityInstruct-3M 启动千万级指令微调数据集 / 数据集 / 超神经
文本 | 弱智吧数据1 | https://github.com/FunnySaltyFish/Better-Ruozhiba/blob/main/ruozhiba_qa.json |
图像 | Osprey | https://huggingface.co/datasets/AntGroup-MI/Osprey-724K |
图像 | MMDU-45k | https://huggingface.co/datasets/laolao77/MMDU?row=0 |
图像 | LAMM-Dataset 包括一个包含 186,098 个图像语言指令-响应对的图像指令调整数据集和一个包含 10,262 个点云语言指令-响应对的点云指令调整数据集。 | OpenDataLab 引领AI大模型时代的开放数据平台 |
文本 | InfinityInstruct-3M | InfinityInstruct-3M 启动千万级指令微调数据集 / 数据集 / 超神经 |
文本 | M2Lingual 多语言多轮次指令微调数据集 | M2Lingual 多语言多轮次指令微调数据集 / 数据集 / 超神经 |
文本 | 中文问答数据集 | https://github.com/DRCKnowledgeTeam/DRCD |
文本 | 由BELLE项目生成的约200万个中文指令数据 | OpenDataLab 引领AI大模型时代的开放数据平台 |
文本 | AgentInstruct | https://huggingface.co/datasets/THUDM/AgentInstruct |
图像 | GeoChat Instruct 数据集是一个为遥感领域设计的多模态指令跟踪数据集 | https://huggingface.co/datasets/MBZUAI/GeoChat_Instruct |