下载PDF或查看论文,请点击:
摘要
创造力是智慧的一个基本方面,涉及在多种情境下产生新颖且恰当解决方案的能力。虽然大型语言模型(LLMs)在创意能力方面已被广泛评估,但在此领域对多模态大型语言模型(MLLMs)的评估仍基本未涉足。为了填补这一空白,我们引入了Creation-MMBench,这是一个专门为评估MLLMs在现实世界、基于图像的任务中的创意能力而设计的多模态基准。基准包含765个测试案例,涵盖了51个细粒度任务。为确保严格评估,我们对每个测试案例定义了特定实例的评估标准,引导了对一般响应质量和与视觉输入的事实一致性的评估。实验结果表明,与专有模型相比,当前的开放源代码MLLMs在创意任务中的表现显著不足。此外,我们的分析表明,视觉微调可能会对基础LLM的创意能力产生负面影响。Creation-MMBench为提升MLLM的创意能力提供了宝贵见解,并为进一步改进多模态生成智能奠定了基础。完整数据和评估代码已发布在https://github.com/open-compass/Creation-MMBench上。
一句话总结
Creation-MMBench提出了一种多模态基准,用于评估多模态大型语言模型(MLLMs)在基于图像的实际场景中的创造性能力。
问题1:这篇论文想要解决什么具体问题?
- 问题背景:当前的多模态大型语言模型(MLLMs)在处理日常生活中的创造性任务时存在缺陷,尤其是在视觉创造性智力方面的评估上。
- 现有方案不足:现有的MLLM基准在评估视觉创造性智力方面存在显著差距,且现有基准中的问题过于简单,无法评估模型在实际生活中的创造性任务表现。
- 研究目标:开发Creation-MMBench,一个专门设计用于评估MLLMs在基于图像的实际场景中创造性能力的多模态基准。
问题2:论文的核心创新点是什么?
- 技术创新:提出Creation-MMBench,一个包含765个测试案例的多模态基准,涵盖了51个细粒度任务,并定义了针对每个测试案例的实例特定评估标准。
- 方法改进:设计了新的评估方法,包括单元评分和成对比较,以及视觉事实性评分,以全面评估模型的创造性质量。
- 优势:与现有方法相比,Creation-MMBench提供了更全面和综合的评估,能够更准确地衡量MLLMs的创造性能力。
问题3:实验结果如何验证了方法的有效性?
- 关键实验:在Creation-MMBench上对主流MLLMs进行了全面评估。
- 性能提升:结果表明,与开源MLLMs相比,专有模型在创造性任务上表现更好。
- 对比结果:实验还表明,视觉微调可能会对基础LLM的创造性能力产生负面影响。
问题4:这个研究的实际应用价值是什么?
- 应用场景:Creation-MMBench可以用于评估和改进MLLMs在创意内容生成、广告解释、艺术欣赏等领域的性能。
- 实施建议:建议在开发MLLMs时考虑视觉创造性智力的评估,并使用Creation-MMBench来指导模型训练和改进。
- 局限与展望:尽管Creation-MMBench为评估MLLMs的创造性能力提供了一个有价值的工具,但仍有改进空间,例如扩大基准规模和增加更多任务类型。