全面评估GPT4-V等大模型的视觉理解能力!南洋理工大学等开源新基准BenchLMM

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【视觉和Transformer】微信交流群

扫码加入CVer学术星球可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!

b635b636b013bbc8bf3048c02a12f74d.jpeg

c4fe1795f8869f63cd857305a6bd37e7.png

论 文 :https://arxiv.org/abs/2312.02896

数 据 集 和 测 试 代 码 :

https://github.com/AIFEG/BenchLMM

在 人 工 智 能 领 域 ,大 型 多 模 态 模 型( LMMs)已 经 成 为 一 个 热 门 话 题 。这 些 模 型( 如 GPT-4V 和 LLaVA)在 处 理 图 像 文 本 数 据 时 表 现 出 惊 人 的 能 力 。然 而 ,关 于 它 们 在 不 同 视 觉 风 格 下 的 鲁 棒 性 和 适 应 性 的 研 究 还 相 对 较 少 。为 此 , 由 南 洋 理 工 大 学 、 悉 尼 科 技 大 学 、 东 北 大 学 、 MBZUAI、 浙 江 大 学 等 组 成 的 研 究 团 队 构 建 了 一 个 全 新 的 基 准 测 试 数 据 集 BenchLMM, 旨 在 全 面 评 估 大 型 多 模 态 模 型 在 处 理 不 同 视 觉 风 格 时 的 性 能 。

BenchLMM 测 试 集 专 为 评 估 大 型 多 模 态 模 型 在 处 理 不 同 视 觉 风 格 时 的 能 力 而 设 计 ,包 括 艺 术 风 格 、传 感 器 风 格 和 应 用 风 格 三 个 维 度 。这 些 多 样 化 的 风 格 覆 盖 了 从 日 常 生 活 中 的 艺 术 表 现 到 专 业 科 技 应 用 的 各 个 方 面 。在 艺 术 风 格 维 度 中 ,BenchLMM 测 试 集 包 含 了 多 种 独 特 的 视 觉 表 达 形 式 ,旨 在 检 验 模 型 对 于 卡 通 、绘 画 、纹 身 等 艺 术 图 像 的 理 解 能 力 。传 感 器 风 格 则 聚 焦 于 不 同 类 型 的 成 像 技 术 , 如 红 外 成 像 、 X 光 扫 描 和 CT 图 像 等 , 考 察 模 型 在 特 殊 成 像 条 件 下 的 适 应 性 。最 后 ,应 用 风 格 则 涉 及 到 一 些 特 定 的 实 际 应 用 场 景 ,比 如 遥 感 图 像 分 析 、自 动 驾 驶 中 的 视 觉 识 别 、以 及 机 器 人 视 觉 系 统 等 ,这 些 都 是 现 代 技 术 发 展 中 的 关 键 领 域 。在 每 一 种 风 格 下 ,BenchLMM 提 供 了 一 系 列 的 测 试 图 像 和 问 题 ,以 评 估 模 型 在 不 同 风 格 下 的 推 理 能 力 , 从 而 全 面 考 验 模 型 在 多 样 化 视 觉 环 境 中 的 适 应 性 和 鲁 棒 性 。

0d609db22bb8b1aa4a3f248a11b660bf.png

在 我 们 的 研 究 中 ,我 们 对 目 前 流 行 的 几 种 大 型 多 模 态 模 型 进 行 了 细 致 的 评 估 ,包 括 但 不 限 于 GPT-4V 和 LLaVA-1.5 这 样 的 最 新 大 模 型 。这 些 模 型 在 计 算 机 视 觉 领 域 内 引 起 了 广 泛 的 关 注 , 因 为 它 们 在 处 理 结 合 视 觉 和 语 言 的 复 杂 任 务 时 显 示 出 了 卓 越 的 性 能 。我 们 的 评 估 着 重 于 这 些 模 型 在 处 理 不 同 视 觉 风 格 下 图 像 的 能 力 。研 究 结 果 显 示 ,这 些 模 型 在 处 理 常 见 且 标 准 化 的 视 觉 风 格( 如 日 常 摄 影 图 像 )时 ,能 够 表 现 出 高 质 量 的 识 别 和 解 释 能 力 。然 而 ,当 转 向 更 多 样 化 和 具 有 挑 战 性 的 视 觉 风 格 , 如 艺 术 风 格 ( 包 括 不 同 类 型 的 艺 术 表 现 形 式 , 如 卡 通 、 绘 画 、 纹 身 等 ) 、 传 感 器 风 格 ( 涵 盖 不 同 类 型 传 感 器 获 取 的 图 像 , 如 红 外 成 像 、 X 光 、 超 声 波 等 ) 以 及 特 定 应 用 风 格( 涉 及 特 定 应 用 背 景 的 视 觉 风 格 ,例 如 遥 感 图 像 、自 动 驾 驶 车 辆 的 摄 像 头 视 角 、医 疗 成 像 等 ),这 些 模 型 的 性 能 则 会 显 著 下 降 。这 种 性 能 下 降 揭 示 了 当 前 大 型 多 模 态 模 型 在 处 理 视 觉 多 样 性 方 面 的 局 限 性 。在 处 理 艺 术 风 格 的 图 像 时 ,这 些 模 型 可 能 难 以 正 确 解 释 其 中 的 创 意 元 素 或 风 格 特 点 ;在 传 感 器 图 像 方 面 ,模 型 可 能 无 法 有 效 地 解 读 由 特 殊 成 像 技 术 产 生 的 视 觉 差 异 ;在 特 定 应 用 风 格 的 图 像 处 理 上 ,模 型 可 能 未 能 适 应 特 定 领 域 的 视 觉 特 征 和 需 求 。

eea327d5c515db13b80b841b768ada16.png

888805ea164f90ecfb1ca567657fa039.png

为 了 应 对 大 型 多 模 态 模 型 在 处 理 不 同 视 觉 风 格 时 性 能 的 下 降 ,我 们 提 出 了 一 种 名 为 风 格 提 示 增 强 ( Style Prompt Enhancement, 简 称 SPE) 的 创 新 方 法 。这 种 方 法 的 关 键 在 于 , 它 先 引 导 模 型 自 行 判 断 图 像 的 风 格 ,然 后 再 进 行 问 题 的 解 答 。这 一 过 程 不 需 要 对 模 型 进 行 额 外 的 训 练 或 改 造 ,而 是 利 用 模 型 本 身 的 判 断 能 力 来 提 升 其 在 多 样 化 视 觉 环 境 中 的 表 现 。通 过 这 种 方 法 , 模 型 在 进 行 具 体 推 理 之 前 已 经 对 图 像 的 风 格 有 了 初 步 的 认 识 ,这 样 可 以 帮 助 它 更 好 地 适 应 和 理 解 不 同 类 型 的 视 觉 信 息 。例 如 ,当 面 对 一 幅 卡 通 或 绘 画 作 品 时 ,模 型 首 先 识 别 出 它 是 艺 术 风 格 的 图 像 ,然 后 在 这 个 认 知 基 础 上 进 行 进 一 步 的 分 析 和 推 理 。同 样 ,在 处 理 特 殊 成 像 技 术 产 生 的 图 像 ,如 红 外 或 X 光 图 像 时 ,模 型 能 够 先 判 断 出 图 像 的 传 感 器 风 格 ,进 而 采 取 更 适 合该 风 格 的 处 理 策 略 。实 验 结 果 证 明 ,SPE 方 法 在 提 升 模 型 在 多 样 化 视 觉 风 格 下 的 推 理 能 力 方 面 效 果 显 著 。这 种 方 法 不 仅 简 单 高 效 ,而 且 能 够 显 著 提 高 大 型 多 模 态 模 型 在 应 对 复 杂 和 多 变 的 视 觉 环 境 时 的 性 能 。

b7af93d372a65b7ab2ff9a9a16ca4ca3.png

除 了 对 大 型 多 模 态 模 型 的 性 能 进 行 全 面 评 估 ,BenchLMM 还 深 入 探 讨 了 这 些 模 型 的 错 误 反 思 能 力 ,即 它 们 在 给 出 错 误 答 案 时 ,能 否 自 我 分 析 和 解 释 其 判 断 依 据 。这 种 能 力 对 于 理 解 和 改 进 模 型 的 决 策 过 程 至 关 重 要 。在 研 究 中 , 我 们 发 现 , 像 GPT-4V 这 样 的 商 用 大 模 型 不 仅 能 够 识 别 并 解 释 其 错 误 答 案 的 原 因 ,还 能 在 错 误 反 思 过 程 中 提 供 详 细 的 推 理 链 条 。这 表 明 ,这 些 模 型 不 仅 在 识 别 错 误 时 具 有 高 度 的 自 我 意 识 ,还 能 够 透 过 分 析 自 己 的 决 策 过 程 ,揭 示 其 内 在 的 推 理 机 制 。此 外 ,这 种 错 误 反 思 能 力 还 体 现 了 模 型 在 处 理 复 杂 和 模 糊 场 景 时 的 高 级 认 知 功 能 。通 过 深 入 分 析 错 误 答 案 背 后 的 推 理 过 程 ,模 型 能 够 更 好 地 理 解 任 务 要 求 和 环 境 条 件 ,从 而 在 未 来 的 任 务 中 做 出 更 加 精 准 的 判 断 。这 种 能 力 对 于 开 发 更 智 能 、功 能 更 全 面 的 开 源 模 型 至 关 重 要 ,因 为 它 不 仅 提 高 了 模 型 的 可 解 释 性 ,还 为 模 型 的 持 续 学 习 和 自 我 完 善 奠 定 了 基 础 。

7302e9bc77c11ccdc64be83b799b5ffe.png

BenchLMM 的 提 出 为 评 估 和 提 升 大 型 多 模 态 模 型 在 处 理 多 样 化 视 觉 风 格 方 面 的 能 力 提 供 了 一 个 新 的 工 具 。它 不 仅 揭 示 了 现 有 模 型 的 局 限 性 ,也 为 未 来 研 究 提 供 了 新 的 方 向 ,即 如 何 开 发 能 够 更 好 理 解 和 适 应 不 同 视 觉 风 格 的 智 能 模 型 。

目 前 ,BenchLMM 已 经 在 Github 上 开 源 ,项 目 地 址 为 :

https://github.com/AIFEG/BenchLMM

在 这 个 仓 库 中 ,我 们 不 仅 提 供 了 完 整 的 源 代 码 ,还 包 括 了 数 据 集 下 载 链 接 和 模 型 测 试 的 详 细 教 程 。这 些 材 料 都 经 过 精 心 编 排 ,确 保 即 使 是 初 学 者 也 能 轻 松 地 下 载 和 使 用 。我 们 鼓 励 广 大 研 究 者 、 开 发 者 和 人 工 智 能 爱 好 者 下 载 我 们 的 代 码 和 数 据 集 , 以 便 更 好 地 运 用 BenchLMM 在 多 模 态 模 型 评 估 方 面 的 潜 力 。同 时 ,我 们 热 切 期 待 社 区 的 反 馈 ,不 论 是 赞 誉 还 是 批 评 指 正 , 我 们 都 将 虚 心 接 受 ,以 期 不 断 改 进 我 们 的 工 作 。您 的 每 一 份 反 馈 都 是 我 们 前 进 的 动 力 ,我 们 诚 挚 邀 请 您 加 入 我 们 的 开 源 社 区 , 共 同 推 动 大 型 多 模 态 模 型 研 究 的 进 步 。

CVPR / ICCV 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
计算机视觉和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看fb35f2dab38c45cbdcf903ca8c7a8e71.gif
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值