北大联合字节提出多模态评估流程ConBench:揭示VLM的不一致性

ff0c8214805cb15de071cb2b1758c811.gif

多模态大模型(LVLMs)取得了快速的进展,在处理视觉信息方面展现出了很强的感知和推理能力。然而,当面对不同规模解空间的问题时,LVLMs 在相同知识点上并不总能给出一致的答案,这种答案的不一致性在 LVLMs 中普遍存在,在一定程度上会损害实际的用户体验,然而现有的多模态大模型基准测试却忽视了关于一致性的评价。

针对这一问题,北京大学计算机学院联合字节跳动提出了 ConBench,弥补了这一缺陷。ConBench 评测流程简洁快速,目前合并至 LLaVA 官方推理库 lmms-eval 中,欢迎大家试用。

d277950efaf257b929c818959a752b05.png

论文链接:

https://arxiv.org/abs/2405.14156

数据集与评测代码:

https://github.com/foundation-multimodal-models/ConBench

第三方库:

https://github.com/EvolvingLMMs-Lab/lmms-eval

ConBench 具有几个重要的亮点:

  1. 设计 1K 条 Case,每条 Case 包含判断题、选择题与限制性问答题,这三类判别式问题围绕同一知识点展开

  2. 基于 ConBench,首次揭示了以下发现:

  • 在判别式领域,问题的解空间越大,模型的准确性越低

  • 建立了判别式和生成式之间的关系:区分性问题类型的准确性与其与标题的一致性之间呈现强烈的正相关性

  • 与开源模型相比,闭源模型在一致性方面具有明显的 Bias 优势

  1. 通过基于触发器的诊断优化来改善 LVLMs 的一致性,间接提高其 Caption 的性能

接下来,我们一起来看看该研究的细节。

33bccd3f652a0d95bd3424cd9b570fbf.png

研究动机

最近,得益于大语言模型(LLMs)的显著进展,多模态大模型(LVLMs)领域经历了一次革命性的转变。这些新颖的 LVLMs 试图将视觉信号与文本语义结合起来,通过跨模态激发通用人工智能的认知。虽然 LVLMs 可以生成高质量的回答,但是作者发现,对于回答正确的情况,简单修改 prompt 会导致 LVLMs 给出矛盾的回答。

在图 1(a.2)中,LLaVA-7B 正确描述了图片为“一个穿着恐龙服装的男人”,但当 prompt 为“恐龙是由人扮演的吗?请回答是或否。”时,LLaVA-7B 回答“不,它们是恐龙”。这种不一致的现象在主流 LVLMs 中普遍存在,但目前仅在 LLMs 进行初步研究。实际上,与现有多模态基准测试中设计的固定问题模式相比,用户倾向于以任意方式提出问题。因此,有必要确保 LVLMs 在面对各种查询格式时能够预测出正确且“一致”的答案。

57a41d894481a759c550ed94bee47c3e.png

然而,目前还没有专门关注评估 LVLMs 回答一致性的基准测试或研究。这些基于单个提示类型的评估方法(MMBench, SeedBench, MME, MMMU)导致基准测试的准确性与真实世界用户实际体验之间存在脱节。

4e0210f6ce67a9d3376eba217354aacf.png

评测方法

研究团队提出了一种名为 ConBench 的新型多模态评估流程,全面评估 LVLMs 的能力。ConBench 共包含了 1K 张图片,每张图片包含 3 个判别式问题与 1 个生成式问题,保证了评估的质量和问题的多样性。

3e2b6136154f64783234687c04bff9c4.png

  • 数据生成过程

我们从四个高质量的多模态基准数据集中手动选择了 1K 张图片:MME、SeedBench、MMBench 和 MMMU。其中,MME 是判断题类型,而 SeedBench 和 MMBench则是选择题,MMMU 则强调知识能力。

每张图片原有 1 个判别式问题,我们额外构建其余两个判别式问题。因此,每个 Case 都有三个判别式 prompt(判断题、选择题与限制性问答题),以及围绕相同知识点的生成式 prompt。我们修改了那些答案可以直接从文本中推断出来而不需要图片的原始 prompt,迫使 LVLMs 利用视觉特征的信息。

最后,为了避免影响评估结果,判断题的正确和错误答案的分布比例均为 50%。对于多项选择题,每个选项(如A、B、C、D)成为正确答案的概率分布均为 25%。值得注意的是,为了确保评估解析器准确,问答题受到更多的限制,例如指定字数和答案格式(如分数/缩写/数字)。

  • 层次化的核心能力

ConBench 包含三个核心能力,按难度递增顺序分别是:观察能力(Sensation)、复杂推理(Reasoning)和专业知识(Knowledge)。这些能力层次的设计理念是为了逐步挑战模型在不同任务上的表现,并提供细粒度的评估指标。

  • 多维度评估指标

ConBench 分别从判别性和生成式的角度,提供两个评估指标,旨在更全面地了解 LVLMs 的一致性。

ConScore [D] 定义如下:当同一 Case 的三种判别式问题都被正确回答时,模型得到一分,最高分为 1000 分,以百分比(%)的形式呈现。判断题、选择题与限制性问答题 对于判断题,从答案中提取“是”和“否”。如果两者都不存在,则答案将被视为“无”。

解析选择题时,从中提取选项标签(A、B、C、D)。将其作为预测值并与真实答案进行匹配。如果失败将不继续提取答案,因为 prompt 已指定只需回答一个字母,进一步提取对擅长遵循指令的 LVLM 来说是不公平的。对于限制性问答题,基于字符匹配 ANLS 进行赋分。

ConScore [C] 定义如下:Caption 和其他三个判别式回答之间一致性的平均分数。由于 Caption 存在高度的可变性,仅通过字符匹配来计算一致性是不可行的。因此,依赖于 GPT/GPT4 来进行判断。判断过程和构建的提示如图 3 所示。作者将其定义为一个机器阅读理解任务。他们手动采样了判断结果,GPT4 的准确率达到了 95%,可靠可信。

d98fdb32d433e3466d3ebf0d2dbfcf6b.png

38f890aa0352f7c68b800ad0e65481bb.png

评测结果

ConScore [D]

d92c66bcae0f650ce337670c9f6d9b80.png

ConScore [C]

0369cb5ac4c4a74d93e8bef41604561c.png

0e31cefae5efa327316aad36b837fe8b.png

分析与可视化

基于 ConBench,首次揭示了以下发现:

  • 在判别式领域,问题的解空间越大,模型的准确性越低

  • 建立了判别式和生成式之间的关系:区分性问题类型的准确性与其与标题的一致性之间呈现强烈的正相关性

  • 与开源模型相比,闭源模型在一致性方面具有明显的 Bias 优势

4cac831fc6948ddf1ed0daf1dcf1f499.png

60ac5432907a38102dcf51552e9d55e4.png

简单改进

首先让 LVLM 生成 Caption,每个单词都伴随着其相应的 logit。接下来,基于词性删除无信息的词语,只保留名词、形容词和量词。当剩下的词语的概率低于阈值(这里设定为 0.85)时,低概率表示模型对此单词缺乏信心,作者制定判别式问题来使 LVLM 进行自我验证(例如,照片中有{猫}吗?)。自我诊断的 prompt 及其回答构造成新的 prompt,反馈给 LVLM 以生成更高质量的 Caption。

417212ba6826997b801123e9bdf22c85.png

论文在 LLaVA-NeXT-34B 和 MiniGemini-34B 进行了实验,并在 ConBench 的 ConScore [C] 指标上进行了评估。值得注意的是,LLaVA-NeXT-34B 的得分提高了 9.1 个点,而 MiniGemini 的总体提升为 9.6 个点。

尽管我们的方法主要使用判断题进行自我验证,但在 ConScore [C] 上仍然有明显的改善。从理论上讲,可以进一步构建多个判别性问题来验证 Caption 中的多个单词。此外,这个过程可以进行多轮迭代,从而持续提升 Caption 的质量。本文的方法是上述方法的简化实现。

162413e3da39a137bce83d066e079ef4.png

更多阅读

172a247f4d3c27f9a453cdab86e4f8a9.png

4b3f268381177616c5f8de952b763395.png

a70481571517e1042255d546398b026c.png

afc4a4d79bb13143e3aa99a2d755d726.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

6efa912652a8ef457f4c30344e6ff0bd.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

900080bca549e961fc504ca585b516cc.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
水资源是人类社会的宝贵财富,在生活、工农业生产中是不可缺少的。随着世界人口的增长及工农业生产的发展,需水量也在日益增长,水已经变得比以往任何时候都要珍贵。但是,由于人类的生产和生活,导致水体的污染,水质恶化,使有限的水资源更加紧张。长期以来,油类物质(石油类物质和动植物油)一直是水和土壤中的重要污染源。它不仅对人的身体健康带来极大危害,而且使水质恶化,严重破坏水体生平衡。因此各国都加强了油类物质对水体和土壤的污染的治理。对于水中油含量的检测,我国处于落后阶段,与国际先进水平存在差距,所以难以满足当今技术水平的要求。为了取得具有代表性的正确数据,使分析数据具有与现代测试技术水平相应的准确性和先进性,不断提高分析成果的可比性和应用效果,检测的方法和仪器是非常重要的。只有保证了这两方面才能保证快速和准确地测量出水中油类污染物含量,以达到保护和治理水污染的目的。开展水中油污染检测方法、技术和检测设备的研究,是提高水污染检测的一条重要措施。通过本课题的研究,探索出一套适合我国国情的水质污染现场检测技术和检测设备,具有广泛的应用前景和科学研究价值。 本课题针对我国水体的油污染,探索一套检测油污染的可行方案和方法,利用非分散红外光度法技术,开发研制具有自主知识产权的适合国情的适于野外便携式的测油仪。利用此仪器,可以检测出被测水样中亚甲基、甲基物质和动植物油脂的污染物含量,为我国众多的环境检测站点监测水体的油污染状况提供依据。
### 内容概要 《计算机试卷1》是一份综合性的计算机基础和应用测试卷,涵盖了计算机硬件、软件、操作系统、网络、多媒体技术等多个领域的知识点。试卷包括单选题和操作应用两大类,单选题部分测试学生对计算机基础知识的掌握,操作应用部分则评估学生对计算机应用软件的实际操作能力。 ### 适用人群 本试卷适用于: - 计算机专业或信息技术相关专业的学生,用于课程学习或考试复习。 - 准备计算机等级考试或职业资格认证的人士,作为实战演练材料。 - 对计算机操作有兴趣的自学者,用于提升个人计算机应用技能。 - 计算机基础教育工作者,作为教学资源或出题参考。 ### 使用场景及目标 1. **学习评估**:作为学校或教育机构对学生计算机基础知识和应用技能的评估工具。 2. **自学测试**:供个人自学者检验自己对计算机知识的掌握程度和操作熟练度。 3. **职业发展**:帮助职场人士通过实际操作练习,提升计算机应用能力,增强工作竞争力。 4. **教学资源**:教师可以用于课堂教学,作为教学内容的补充或学生的课后练习。 5. **竞赛准备**:适合准备计算机相关竞赛的学生,作为强化训练和技能检测的材料。 试卷的目标是通过系统性的题目设计,帮助学生全面复习和巩固计算机基础知识,同时通过实际操作题目,提高学生解决实际问题的能力。通过本试卷的学习与练习,学生将能够更加深入地理解计算机的工作原理,掌握常用软件的使用方法,为未来的学术或职业生涯打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值