多模态大模型——任务、评估、数据集

*pan

已于 2024-03-20 10:27:03 修改

阅读量3.5k

点赞数 23

文章标签：语言模型人工智能自然语言处理

于 2024-03-17 15:10:43 首次发布

本文链接：https://blog.csdn.net/qq_33523925/article/details/136780446

版权

本文详细介绍了多模态大模型的任务，如视觉问答、描述和定位，并探讨了评估基准，如SEED-Bench、LLaVA-v1.6。同时，列举了幻觉数据集、综合评估、纯文本评估和视频问答的数据集，如PoPE、MME、VQAv2等，以及LMM视觉问答和描述的数据集，如InfoVQA、COCO Caption等。此外，还讨论了多模态模型的幻觉纠正方法，如啄木鸟和LVLM Hallucination Revisor。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考链接：https://zhuanlan.zhihu.com/p/671638798

一、视觉大模型的任务

视觉问答（Visual Question Answering, VQA）：给定一个图片以及问题，需要理解图片的内容并基于此用自然语言回答问题
视觉描述（Visual Captioning）：给定一个图像，用自然语言描述图像的内容。
视觉定位（Visual Grounding）/短语定位（Phrase Localization/Phrase Grounding）。参考cogVLM文章的定义，把 Visual Grounding 作为一个广义概念，分为：
① Grounded Captioning：具有定位的视觉描述（描述图像的内容以及所提到所有实体的位置） Referring
② Expression Generation：指代表述生成（给定图像和对应在图像中的位置，生成一个自然语言描述，并与其他相似物体区分）
③ Referring Expression Comprehension（REC）：指代表述理解（给定图像以及实体描述，定位到图中的最佳匹配区域，并理解各种自然语言语义及物体、属性、区域等相关的视觉信息）
④ Grounded Visual Question Answering：包含定位的视觉问答（给定图像以及物品的位置框信息，进行视觉问答）

二、评估基准：

SEED-Bench排行榜：

在这里插入图片描述

ppl (perplexity) 就是给模型 4 句话 A / B / C / D ，看模型更认同哪一句话 (混淆度 perplexity 更低)；
gen (generate) 就是问题为提示词，让模型往下续写，并从续写中提取答案为 A / B / C / D中的哪一个。
SEED-Bench-2：由三个层级构成，每个层级都对模型的不同能力进行了深度评估：
L1评估模型对固定形式的图像（如单图、多图或视频）和文本的理解能力；
L2评估模型对图文穿插这一更为灵活的输入形式的理解能力；
L3更进一步，评估模型不仅输出文本，还包括生成图像的能力。

在这里插入图片描述
图2 SEED-Bench-2的三个层级构成

LLaVA-v1.6，模型评估

在这里插入图片描述

MME（Multi-Modal Explanations）：用于评估模型在多模态解释任务中的性能。包含MME-Cognition与MME-Perception。
MMBench: 视觉模型多任务评估 MMBench-CN: 视觉模型多任务评估，中文任务评估 CMMLU: 中文多任务语言理解能力
TouchStone：提供了多个任务和评估指标，用于综合评估多模态模型的能力。
LLaVA-Bench–Wild：为评估模型在更具挑战性的任务中的能力以及对新领域的泛化能力，收集了 24 张不同的图像，总共60 个问题，包括室内和室外场景、绘画、草图等。将问题分为三类：对话（简单 QA）、详细描述和复杂推理。
SEED-IMG：情感评估
Math-Vista 在视觉环境中的数学推理