北大联合字节提出多模态评估流程ConBench：揭示VLM的不一致性-CSDN博客

多模态大模型（LVLMs）取得了快速的进展，在处理视觉信息方面展现出了很强的感知和推理能力。然而，当面对不同规模解空间的问题时，LVLMs 在相同知识点上并不总能给出一致的答案，这种答案的不一致性在 LVLMs 中普遍存在，在一定程度上会损害实际的用户体验，然而现有的多模态大模型基准测试却忽视了关于一致性的评价。

针对这一问题，北京大学计算机学院联合字节跳动提出了 ConBench，弥补了这一缺陷。ConBench 评测流程简洁快速，目前合并至 LLaVA 官方推理库 lmms-eval 中，欢迎大家试用。

论文链接：

https://arxiv.org/abs/2405.14156

数据集与评测代码：

https://github.com/foundation-multimodal-models/ConBench

第三方库：

https://github.com/EvolvingLMMs-Lab/lmms-eval

ConBench 具有几个重要的亮点：

设计 1K 条 Case，每条 Case 包含判断题、选择题与限制性问答题，这三类判别式问题围绕同一知识点展开
基于 ConBench，首次揭示了以下发现：

在判别式领域，问题的解空间越大，模型的准确性越低
建立了判别式和生成式之间的关系：区分性问题类型的准确性与其与标题的一致性之间呈现强烈的正相关性
与开源模型相比，闭源模型在一致性方面具有明显的 Bias 优势

通过基于触发器的诊断优化来改善 LVLMs 的一致性，间接提高其 Caption 的性能

接下来，我们一起来看看该研究的细节。

研究动机

最近，得益于大语言模型（LLMs）的显著进展，多模态大模型（LVLMs）领域经历了一次革命性的转变。这些新颖的 LVLMs 试图将视觉信号与文本语义结合起来，通过跨模态激发通用人工智能的认知。虽然 LVLMs 可以生成高质量的回答，但是作者发现，对于回答正确的情况，简单修改 prompt 会导致 LVLMs 给出矛盾的回答。

在图 1（a.2）中，LLaVA-7B 正确描述了图片为“一个穿着恐龙服装的男人”，但当 prompt 为“恐龙是由人扮演的吗？请回答是或否。”时，LLaVA-7B 回答“不，它们是恐龙”。这种不一致的现象在主流 LVLMs 中普遍存在，但目前仅在 LLMs 进行初步研究。实际上，与现有多模态基准测试中设计的固定问题模式相比，用户倾向于以任意方式提出问题。因此，有必要确保 LVLMs 在面对各种查询格式时能够预测出正确且“一致”的答案。

然而，目前还没有专门关注评估 LVLMs 回答一致性的基准测试或研究。这些基于单个提示类型的评估方法（MMBench, SeedBench, MME, MMMU）导致基准测试的准确性与真实世界用户实际体验之间存在脱节。

评测方法

研究团队提出了一种名为 ConBench 的新型多模态评估流程，全面评估 LVLMs 的能力。ConBench 共包含了 1K 张图片，每张图片包含 3 个判别式问题与 1 个生成式问题，保证了评估的质量和问题的多样性。

数据生成过程

我们从四个高质量的多模态基准数据集中手动选择了 1K 张图片：MME、SeedBench、MMBench 和 MMMU。其中，MME 是判断题类型，而 SeedBench 和 MMBench则是选择题，MMMU 则强调知识能力。

每张图片原有 1 个判别式问题，我们额外构建其余两个判别式问题。因此，每个 Case 都有三个判别式 prompt（判断题、选择题与限制性问答题），以及围绕相同知识点的生成式 prompt。我们修改了那些答案可以直接从文本中推断出来而不需要图片的原始 prompt，迫使 LVLMs 利用视觉特征的信息。

最后，为了避免影响评估结果，判断题的正确和错误答案的分布比例均为 50%。对于多项选择题，每个选项（如A、B、C、D）成为正确答案的概率分布均为 25%。值得注意的是，为了确保评估解析器准确，问答题受到更多的限制，例如指定字数和答案格式（如分数/缩写/数字）。

层次化的核心能力

ConBench 包含三个核心能力，按难度递增顺序分别是：观察能力（Sensation）、复杂推理（Reasoning）和专业知识（Knowledge）。这些能力层次的设计理念是为了逐步挑战模型在不同任务上的表现，并提供细粒度的评估指标。

多维度评估指标

ConBench 分别从判别性和生成式的角度，提供两个评估指标，旨在更全面地了解 LVLMs 的一致性。

ConScore [D] 定义如下：当同一 Case 的三种判别式问题都被正确回答时，模型得到一分，最高分为 1000 分，以百分比（%）的形式呈现。判断题、选择题与限制性问答题对于判断题，从答案中提取“是”和“否”。如果两者都不存在，则答案将被视为“无”。

解析选择题时，从中提取选项标签（A、B、C、D）。将其作为预测值并与真实答案进行匹配。如果失败将不继续提取答案，因为 prompt 已指定只需回答一个字母，进一步提取对擅长遵循指令的 LVLM 来说是不公平的。对于限制性问答题，基于字符匹配 ANLS 进行赋分。

ConScore [C] 定义如下：Caption 和其他三个判别式回答之间一致性的平均分数。由于 Caption 存在高度的可变性，仅通过字符匹配来计算一致性是不可行的。因此，依赖于 GPT/GPT4 来进行判断。判断过程和构建的提示如图 3 所示。作者将其定义为一个机器阅读理解任务。他们手动采样了判断结果，GPT4 的准确率达到了 95%，可靠可信。

评测结果

ConScore [D]

ConScore [C]

分析与可视化

基于 ConBench，首次揭示了以下发现：

在判别式领域，问题的解空间越大，模型的准确性越低
建立了判别式和生成式之间的关系：区分性问题类型的准确性与其与标题的一致性之间呈现强烈的正相关性
与开源模型相比，闭源模型在一致性方面具有明显的 Bias 优势

简单改进

首先让 LVLM 生成 Caption，每个单词都伴随着其相应的 logit。接下来，基于词性删除无信息的词语，只保留名词、形容词和量词。当剩下的词语的概率低于阈值（这里设定为 0.85）时，低概率表示模型对此单词缺乏信心，作者制定判别式问题来使 LVLM 进行自我验证（例如，照片中有{猫}吗？）。自我诊断的 prompt 及其回答构造成新的 prompt，反馈给 LVLM 以生成更高质量的 Caption。