多模态大模型——任务、评估、数据集

本文详细介绍了多模态大模型的任务,如视觉问答、描述和定位,并探讨了评估基准,如SEED-Bench、LLaVA-v1.6。同时,列举了幻觉数据集、综合评估、纯文本评估和视频问答的数据集,如PoPE、MME、VQAv2等,以及LMM视觉问答和描述的数据集,如InfoVQA、COCO Caption等。此外,还讨论了多模态模型的幻觉纠正方法,如啄木鸟和LVLM Hallucination Revisor。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考链接:https://zhuanlan.zhihu.com/p/671638798

一、视觉大模型的任务

  1. 视觉问答(Visual Question Answering, VQA):给定一个图片以及问题,需要理解图片的内容并基于此用自然语言回答问题
  2. 视觉描述(Visual Captioning):给定一个图像,用自然语言描述图像的内容。
  3. 视觉定位(Visual Grounding)/短语定位(Phrase Localization/Phrase Grounding)。参考cogVLM文章的定义,把 Visual Grounding 作为一个广义概念,分为:
    ① Grounded Captioning:具有定位的视觉描述(描述图像的内容以及所提到所有实体的位置) Referring
    ② Expression Generation:指代表述生成(给定图像和对应在图像中的位置,生成一个自然语言描述,并与其他相似物体区分)
    ③ Referring Expression Comprehension(REC):指代表述理解(给定图像以及实体描述,定位到图中的最佳匹配区域,并理解各种自然语言语义及物体、属性、区域等相关的视觉信息)
    ④ Grounded Visual Question Answering:包含定位的视觉问答 (给定图像以及物品的位置框信息,进行视觉问答)

二、评估基准:

SEED-Bench排行榜:

在这里插入图片描述

  • ppl (perplexity) 就是给模型 4 句话 A / B / C / D ,看模型更认同哪一句话 (混淆度 perplexity 更低);
  • gen (generate) 就是问题为提示词,让模型往下续写,并从续写中提取答案为 A / B / C / D中的哪一个。
  • SEED-Bench-2:由三个层级构成,每个层级都对模型的不同能力进行了深度评估:
    L1评估模型对固定形式的图像(如单图、多图或视频)和文本的理解能力;
    L2评估模型对图文穿插这一更为灵活的输入形式的理解能力;
    L3更进一步,评估模型不仅输出文本,还包括生成图像的能力。

在这里插入图片描述
图2 SEED-Bench-2的三个层级构成

LLaVA-v1.6,模型评估

在这里插入图片描述

  • MME(Multi-Modal Explanations):用于评估模型在多模态解释任务中的性能。包含MME-Cognition与MME-Perception。
  • MMBench: 视觉模型多任务评估 MMBench-CN: 视觉模型多任务评估,中文任务评估 CMMLU: 中文多任务语言理解能力
  • TouchStone:提供了多个任务和评估指标,用于综合评估多模态模型的能力。
  • LLaVA-Bench–Wild:为评估模型在更具挑战性的任务中的能力以及对新领域的泛化能力,收集了 24 张不同的图像,总共60 个问题,包括室内和室外场景、绘画、草图等。将问题分为三类:对话(简单 QA)、详细描述和复杂推理。
  • SEED-IMG:情感评估
  • Math-Vista 在视觉环境中的数学推理

三、大型多模态模型的评估数据集(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值