SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

515 篇文章 3 订阅

已下架不支持订阅

本文介绍了SEED-Bench,一个用于评估多模态大型语言模型(MLLMs)生成理解能力的基准,包含19K多项选择题和12个评估维度。此基准通过自动化和人工验证过程生成测试题,客观地衡量模型在图像和视频理解等任务中的性能,旨在揭示现有模型的局限性,并推动未来研究。
摘要由CSDN通过智能技术生成

本文是LLM相关的文章,针对《SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension》的翻译。

SEED-基准:用生成理解对多模式LLM进行基准测试

摘要

基于强大的大型语言模型(LLM),近年来生成的多模态大型语言模型作为一个关键的研究领域,在理解和生成方面表现出了非凡的能力。在这项工作中,我们通过引入一个名为SEED Bench的基准,将MLLMs中生成理解的评估作为对生成模型进行全面评估的初步步骤。SEED Bench由19K多项选择题组成,具有准确的人工注释(比现有基准大×6),涵盖12个评估维度,包括对图像和视频模态的理解。我们开发了一个高级管道,用于生成针对特定评估维度的多项选择题,集成了自动过滤和手动验证过程。多选题具有源自人工注释的基本事实选项,可以客观有效地评估模型性能,从而消除评估过程中人工或GPT干预的需要。我们进一步评估了18个模型在所有12个维度上的性能,涵盖了空间和时间理解。通过评估结果揭示现有MLLM的局限性,我们的目标是SEED Bench为激励未来的研究提供见解。我们将推出并持续维护排行榜,为社区提供评估和调查模型能力的平台。

1 引言

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值