多模态大模型——任务、评估、数据集

本文详细介绍了多模态大模型的任务,如视觉问答、描述和定位,并探讨了评估基准,如SEED-Bench、LLaVA-v1.6。同时,列举了幻觉数据集、综合评估、纯文本评估和视频问答的数据集,如PoPE、MME、VQAv2等,以及LMM视觉问答和描述的数据集,如InfoVQA、COCO Caption等。此外,还讨论了多模态模型的幻觉纠正方法,如啄木鸟和LVLM Hallucination Revisor。
摘要由CSDN通过智能技术生成

参考链接:https://zhuanlan.zhihu.com/p/671638798

一、视觉大模型的任务

  1. 视觉问答(Visual Question Answering, VQA):给定一个图片以及问题,需要理解图片的内容并基于此用自然语言回答问题
  2. 视觉描述(Visual Captioning):给定一个图像,用自然语言描述图像的内容。
  3. 视觉定位(Visual Grounding)/短语定位(Phrase Localization/Phrase Grounding)。参考cogVLM文章的定义,把 Visual Grounding 作为一个广义概念,分为:
    ① Grounded Captioning:具有定位的视觉描述(描述图像的内容以及所提到所有实体的位置) Referring
    ② Expression Generation:指代表述生成(给定图像和对应在图像中的位置,生成一个自然语言描述,并与其他相似物体区分)
    ③ Referring Expression Comprehension(REC):指代表述理解(给定图像以及实体描述,定位到图中的最佳匹配区域,并理解各种自然语言语义及物体、属性、区域等相关的视觉信息)
    ④ Grounded Visual Question Answering:包含定位的视觉问答 (给定图像以及物品的位置框信息,进行视觉问答)

二、评估基准:

SEED-Bench排行榜:

在这里插入图片描述

  • ppl (perplexity) 就是给模型 4 句话 A / B / C / D ,看模型更认同哪一句话 (混淆度 perplexity 更低);
  • gen (generate) 就是问题为提示词,让模型往下续写,并从续写中提取答案为 A / B / C / D中的哪一个。
  • SEED-Bench-2:由三个层级构成,每个层级都对模型的不同能力进行了深度评估:
    L1评估模型对固定形式的图像(如单图、多图或视频)和文本的理解能力;
    L2评估模型对图文穿插这一更为灵活的输入形式的理解能力;
    L3更进一步,评估模型不仅输出文本,还包括生成图像的能力。

在这里插入图片描述
图2 SEED-Bench-2的三个层级构成

LLaVA-v1.6,模型评估

在这里插入图片描述

  • MME(Multi-Modal Explanations):用于评估模型在多模态解释任务中的性能。包含MME-Cognition与MME-Perception。
  • MMBench: 视觉模型多任务评估 MMBench-CN: 视觉模型多任务评估,中文任务评估 CMMLU: 中文多任务语言理解能力
  • TouchStone:提供了多个任务和评估指标,用于综合评估多模态模型的能力。
  • LLaVA-Bench–Wild:为评估模型在更具挑战性的任务中的能力以及对新领域的泛化能力,收集了 24 张不同的图像,总共60 个问题,包括室内和室外场景、绘画、草图等。将问题分为三类:对话(简单 QA)、详细描述和复杂推理。
  • SEED-IMG:情感评估
  • Math-Vista 在视觉环境中的数学推理

三、大型多模态模型的评估数据集(

《大模型技术进化论:多模态模型综述》是一篇系统阐述多模态模型技术进化的综述性论文。多模态模型是指通过整合多种不同的数据形式和类型,构建出更复杂、更完整的模型,以提高模型的表现和性能。 该论文首先介绍了大模型技术的背景和发展动力。随着数据规模的快速增长和多源数据的丰富性,传统的单一模态模型已经面临着一系列的挑战,无法完全适应现实世界中的复杂情况。因此,多模态模型的出现成为了解决这一问题的有效手段。 随后,论文针对多模态模型的构建过程进行了详细的讨论。首先介绍了多模态数据的采集与预处理方法,包括各种传感器和设备的应用,以及数据对齐和归一化等技术。然后,论文详细介绍了多模态特征提取、融合和表示学习方法,包括传统的特征提取算法和深度学习方法等。 接着,论文重点讨论了多模态模型在各个领域的应用。例如,在计算机视觉领域,多模态模型能够通过融合图像和文本数据,实现更准确的图像分类和目标检测。在自然语言处理领域,多模态模型能够通过融合文本和语音数据,实现更准确的情感分析和语音识别。此外,还介绍了多模态模型在医学、金融、推荐系统等领域的应用。 最后,论文总结了多模态模型技术的优势和挑战,并展望了未来的研究方向。多模态模型技术的优势在于可以综合利用不同数据源的信息,提高模型的鲁棒性和泛化能力。然而,多模态模型技术面临着数据集规模和计算复杂度的挑战,需要进一步研究和改进相应的算法和技术。 综上所述,《大模型技术进化论:多模态模型综述》通过系统的介绍了多模态模型技术的构建过程、应用领域和发展前景,对相关研究和应用人员具有重要的参考价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值