MMDU！提升LVLM多图多轮对话能力！-CSDN博客

本文链接：https://blog.csdn.net/qq_51631764/article/details/139776194

生成自然且有意义的响应，以应对多模态人类输入，是大型视觉-语言模型（LVLMs）的基本能力。

虽然当前的开源LVLMs在单回合单图像输入等简化场景中表现出色，但在处理多回合、多图像的复杂对话情境时表现不足。
现有的LVLM基准测试主要关注单选问题或短篇回答，无法充分评估LVLMs在实际人机交互应用中的能力。请添加图片描述

因此，我们引入了MMDU，一个全面的基准测试，以及MMDU-45k，一个大规模的instruct-tuning数据集，旨在评估和提升LVLMs在多回合多图像对话中的能力。
请添加图片描述

我们使用聚类算法从开源维基百科中找到相关的图像和文本描述，并通过GPT-4o模型的帮助，由人工标注构建问答对。
请添加图片描述
MMDU最多包含18k图像+文本tokens、20张图像和27个回合，这至少是之前基准测试长度的5倍，给当前的LVLMs带来了巨大挑战。

我们对15个具有代表性的LVLMs进行了深入分析，发现开源LVLMs由于缺乏对话instruct-tuning数据，在性能上落后于闭源模型。

我们展示了对开源LVLMs进行MMDU-45k的精细调优显著缩小了这一差距，能够生成更长、更准确的对话，并提高在MMDU和现有基准测试（MMStar: +1.1%、MathVista: +1.5%、ChartQA: +1.2%）上的得分。我们的贡献为缩小当前LVLM模型与实际应用需求之间的差距铺平了道路。
请添加图片描述

MMDU和MMDU-45k：
Github：https://github.com/Liuziyu77/MMDU/
Homeoage:https://liuziyu77.github.io/MMDU/
Huggingface: https://huggingface.co/datasets/laolao77/MMDU