MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

最新推荐文章于 2024-07-02 09:25:27 发布

UnknownBody

最新推荐文章于 2024-07-02 09:25:27 发布

阅读量1.9k

点赞数

分类专栏： Survey Paper 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/132358114

版权

Survey Paper 同时被 2 个专栏收录

157 篇文章 6 订阅 ¥99.90 ¥99.00

订阅专栏

超级会员免费看

LLM 日更

515 篇文章 3 订阅

已下架不支持订阅

本文也是LLM系列相关文章，针对《MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models》的翻译。

摘要

多模态大语言模型（MLLM）依靠强大的LLM来执行多模态任务，在最近的研究中显示出惊人的涌现能力，例如基于图像写诗。然而，这些案例研究很难完全反映MLLM的表现，缺乏全面的评估。在本文中，我们填补了这一空白，提出了第一个MLLM评估基准MME。它测量了总共14个子任务的感知和认知能力。为了避免直接使用公共数据集进行评估可能导致的数据泄露，指令-答案对的注释都是手动设计的。简洁的指令设计使我们能够公平地比较MLLM，而不是在提示工程中苦苦挣扎。此外，有了这样的指示，我们也可以很容易地进行定量统计。在我们的MME上，共对12种先进的MLLM进行了全面评估，这不仅表明现有的MLLM仍有很大的改进空间，而且揭示了后续模型优化的潜在方向。

1 引言

2 MME评估套件

3 实验

4 分析

我们总结了四个在很大程度上影响MLLMs性能的常见问题。第一个问题是没有遵循指令。尽管我们采用了非常简洁的指令设计，但也有MLLM可以自由回答，而不是遵循指令。例如，如图4的第一行所示，指令声称“请回答是或否”，但MLLM只做了一个声明性表达式。如果在生成的语言的开头没有出现“是”或“否”，则判断模型做出了错误的回答。我们认为，一个好的MLLM（尤其是在指令调整之后）应

了解本专栏

超级会员免费看

UnknownBody

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

多模态大语言模型（MLLM）依靠强大的LLM来执行多模态任务，在最近的研究中显示出惊人的涌现能力，例如基于图像写诗。然而，这些案例研究很难完全反映MLLM的表现，缺乏全面的评估。在本文中，我们填补了这一空白，提出了第一个MLLM评估基准MME。它测量了总共14个子任务的感知和认知能力。为了避免直接使用公共数据集进行评估可能导致的数据泄露，指令-答案对的注释都是手动设计的。简洁的指令设计使我们能够公平地比较MLLM，而不是在提示工程中苦苦挣扎。此外，有了这样的指示，我们也可以很容易地进行定量统计。
复制链接

扫一扫