城市复杂环境下具身大模型基准测试!UrBench:综合评估多模态大模型在多视图城市场景中的基准

  • 作者:Baichuan Zhou, Haote Yang, Dairong Chen, Junyan Ye, Tianyi Bai, Jinhua Yu, Songyang Zhang, Dahua Lin, Conghui He, Weijia Li

  • 单位:上海人工智能实验室,中山大学,商汤科技,武汉大学

  • 标题:UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios

  • 原文链接:https://arxiv.org/pdf/2408.17267

  • 项目主页:https://opendatalab.github.io/UrBench/

  • 代码链接:https://github.com/opendatalab/UrBench

  • 数据集:https://huggingface.co/datasets/bczhou/UrBench

主要贡献

  • 论文设计了一个多视角基准测试UrBench,用于评估多模态大模型(LMMs)在城市环境中的表现。UrBench包括14种城市任务,涵盖了从区域级评估到角色级评估的广泛任务类型。

  • 介绍了新的基准测试创建流程,包括跨视角检测匹配算法用于对象级标注生成,以及结合了基于模型、规则和人工的问题生成方法,增强了城市任务的多样性和深度。

  • 在UrBench上评估了21种流行的LMMs,结果表明当前的模型在大多数任务上落后于人类专家,揭示了LMMs在城市环境中理解能力的局限性。

  • 通过评估发现LMMs在不同城市视角下表现出不一致的行为,特别是在理解跨视角关系方面。这表明当前LMMs在处理多视角信息时存在显著的限制。

研究背景

研究问题

论文主要解决的问题是如何全面评估多模态大模型(LMMs)在城市环境中的表现。

现有的评估基准主要集中在单一视角的区域级任务上,缺乏对城市环境中多模态模型能力的全面评估。

研究难点

该问题的研究难点包括:

  • 城市环境的多视角特性、

  • 跨视角关系的理解、

  • 以及从多个视角综合理解城市环境的复杂性。

相关工作

多模态大模型
  • 背景:LMMs建立在大型语言模型(LLMs)的基础上,能够处理来自多种模态的输入,并完成复杂的视觉推理和理解任务。LMMs的发展得益于LLMs在复杂语言推理和理解方面的优势。

  • 应用:LMMs在多个领域展现出潜力,包括城市规划和视觉-语言导航等。例如,UrbanCLIP利用LLMs和CLIP进行城市区域分析,Velma结合LLMs和CLIP进行街景导航,Scene-LLM用于室内多视角3D推理,CityGPT研究LMMs在城市空间理解任务中的表现。

  • 局限性:现有工作主要集中在LLMs或LLMs与CLIP的组合上,对LMMs的分析有限。此外,这些工作通常集中在单一视角的城市任务上,缺乏对需要高级视觉推理或多视角理解的广泛评估。

多模态基准测试
  • 背景:随着LMMs的快速发展,传统的多模态问答基准测试(如VQA和GQA)已不足以全面评估LMMs的能力。近年来,引入了更全面的基准测试来更好地评估LMMs。

  • 现有基准:例如,MME是第一个全面评估LMMs在14种感知和推理任务上的能力,MMMU使用大学水平的问题来评估专家级知识,显示当前模型仍落后于人类专家。其他基准如Jiang等人的工作和Wang等人的MUIRBench专注于多图像推理,并包括不可回答的问题。

  • 城市环境基准:在遥感领域的基准测试中,RSVQA、EarthVQA、RSIEval、LHRS-Bench、Geochat、VRSBench和CityBench等评估了LMMs在遥感图像上的表现。然而,这些基准测试在任务多样性、多视角样本和地理多样性方面存在限制。

  • 论文提出的UrBench填补了这一空白,通过构建一个新的基准测试来评估LMMs在城市规划、推理和理解中的潜力,扩展了任务范围并引入了来自不同地理位置的多视角图像。

UrBench

基准测试分析

概述
  • 特征
    • 多视角整合:UrBench结合了街景、卫星视图和街景-卫星交叉视图图像,提供了对城市场景更全面的理解。

    • 多维度评估:评估LMMs在城市场景中的能力,涵盖地理定位、场景推理、场景理解和物体理解四个维度,总计14种任务类型。

    • 问题生成方法:问题通过集成方法生成,包括基于模型的、基于规则的和基于人工的方法,确保生成大量高质量的问题集。

与现有基准的比较
  • 现有基准:如MUIRBench和MMMU主要评估LMMs在一般场景下的能力,通常从单一视角进行评估。

  • 城市场景基准:如CityBench和EarthVQA侧重于单一视角图像和有限的任务范围,而UrBench则结合多视角图像,涵盖更多样化的任务类型。

基准任务

地理定位
  • 任务类型:包含角色级任务,要求LMMs根据图像预测地理坐标和方向。具体任务包括图像检索(IR)、城市检索(CR)、定向(OR)和相机定位(CL)。

场景推理
  • 任务类型:设计用于评估LMMs在城市多视角场景下的推理能力。具体任务包括视觉提示推理(VPR)、交通标志推理(TSR)和基于角色的推理(Role-based Reasoning)。

场景理解
  • 任务类型:评估LMMs在区域级场景理解的能力。具体任务包括计数(CO)、场景识别(SR)、场景比较(SC)和道路理解(RU)。

物体理解
  • 任务类型:评估LMMs在城市环境中对物体的细粒度理解能力。具体任务包括物体定位(OG)、物体匹配(OM)和物体属性识别(OAR)。

基准构建

数据收集
  • 数据来源:包括自收集数据和开放数据集。

  • 自收集数据包含来自Google Street View和Google Earth的街景和卫星视图图像。

  • 开放数据集包括Cityscapes、Mapillary Traffic Sign Dataset、VIGOR dataset和IM2GPS。

数据预处理
  • 标注生成:为跨视角任务生成实例级别的标注。

  • 使用预训练的Grounding DINO获取街景图像的边界框标注,并通过射线追踪将街景框映射到卫星视图。

  • 计算映射后的边界框与原始卫星视图边界框的IoU,选择IoU大于0.5的对作为跨视角匹配。

问题生成
  • 基于LMM的方法:对于场景推理任务,使用LMM生成问答对。

  • 基于规则的方法:对于固定设置的任务,使用规则模板生成问题。

  • 基于人工的方法:对于无法从标注中推导答案的任务,由人工标注生成问答对。

质量控制
  • 人工检查:去除具有显著时间变化的图像,验证跨视角检测匹配方法的正确性,消除LMM生成数据中的幻觉,确保数据质量和一致性。

实验

实验设计

  • 模型评估:实验评估了多种LMMs,包括闭源模型和开源模型。闭源模型包括GPT-4o、Gemini-1.5-Flash和Claude-3.5-Sonnet。开源模型分为单图像类型和多图像类型,包括LLaVA系列、XComposer、InstructBLIP、Mantis系列、VILA系列和InternVL系列。

  • 评估协议:问题有两种响应格式:多项选择和开放式。遵循标准设置处理LMMs的响应,确保可重复性,设置温度为0并执行贪婪解码。对于不支持多图像输入的模型,将图像拼接为一个输入。

评估设置

评估模型
  • 模型分类:根据训练数据和策略,将开源模型分为单图像类型和多图像类型。

  • 单图像类型包括LLaVA系列、XComposer、InstructBLIP和idéfics。

  • 多图像类型包括Mantis系列、VILA系列、InternVL系列和LLaVA-NeXT-Interleave。

评估协议
  • 包括多选题和开放题两种响应格式。

  • 为了确保结果的可比性和一致性,使用标准的响应处理方法。

  • 对于多图像输入,将图像拼接为一个输入进行处理。

主要结果分析

整体挑战
  • 性能表现:UrBench对当前最先进的LMMs提出了显著的挑战。GPT-4o和VILA-1.5-40B分别实现了61.2%和53.1%的准确率。大多数模型在跨视角任务中表现不佳,平均只有36.2%的准确率。

  • 任务维度表现:在场景推理任务中,模型表现出色,但在地理定位任务中表现较差。例如,在计数任务中,GPT-4o比人类专家落后54.1%,在物体定位任务中落后67.8%。

不同视角的一致性
  • 模型在不同视角下表现不一致,特别是在跨视角任务中。

  • 大多数模型在跨视角任务中的表现不如随机猜测。

详细分析

跨视角关系的理解
  • 多个UrBench任务涉及理解卫星视图和街景视图之间的内部关系。

  • 尽管专业模型在跨视角任务中表现出色,但通用LMMs在这方面的能力非常有限,平均表现仅比随机猜测高3%。

不同视角的一致性
  • 即使在相同地理位置以相同问题提示时,模型在不同视角下的表现也不同。

  • 例如,在城市检索任务中,模型在街景和跨视角中的表现优于卫星视图。

  • 这可能是因为大多数模型在卫星样本上的训练不足,导致地理定位的知识更倾向于街景图像。

总结

  • 论文提出了UrBench,一个用于评估多模态大模型在城市环境中表现的新基准。

  • 通过收集和预处理多视角图像数据,设计了多种方法生成高质量的问题样本,并进行了详细的评估和分析。

  • 结果表明,当前LLMs在城市环境中的表现仍有显著不足,特别是在跨视角理解和地理定位任务中。

  • 研究结果为进一步改进LLMs在城市场景中的应用提供了指导。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值