多模态模型评价

论文1 【Evaluating Object Hallucination in Large Vision-Language Models】

这篇文章主要是评价视觉-语言模型中出现“幻觉”的评价。论文中是这样定义幻觉

we find that LVLMs suffer from the hallucination problem, i.e., they tend to generate objects that are inconsistent with the target images in the descriptions

即,LVLM(Large Vision-Language Models)倾向于生成与描述中的目标图像不一致的对象。

Motivation

  1. 视觉指令对幻觉的影响,发现:在视觉指令中频繁出现或与图像中对象经常共同出现的对象,容易让LVLM产生幻觉
  2. 现有的评估方法可能会受到LVLM的输入指令和生成风格的影响

Methods

本文提出了Polling-based Object Probing Evaluation(POPE,基于轮询的对象探测评估)。

  • 问题设置
  • 在这里插入图片描述
    {图像,问题,答案}三元组的形式。
  • 问题的形式:“Is there a/an in the image?”。对于一幅图,会问多个物体,Oi表示问的第i个物体。object选取规则是图片中存在的物体和图片中不存在的物品都选,选取的比例是1:1
  • 答案:“Yes” 或者 “No”

图片种不存在的object的选取方式

在选择图片中不存在的物品时,有3种方式“Random Sampling”、“Popular Sampling”和“Adversarial Sampling”。

  • Random Sampling 随机采样图像中不存在的对象
  • Popular Sampling 数据集中top-k的类别,且没有在图片中出现的物品
  • Adversarial Sampling 先对数据集中最常出现的物品对进行排序,选出与图片中物品经常一起出现的前K中物品
    最后在用几种LVLM测试,Random Sampling > Popular Sampling > Adversarial Sampling

一些讨论

  1. 本文只讨论了LVLM幻觉的问题。模型在幻觉问题上表现得好,并不代表在其他问题上也表现得好
  2. 仅仅测试了部分数据,模型的表现与数据分布有关
  3. 模型只回答“Yes”或“No”,容易评价不准确
  4. 受标注工具的标签集影响
  5. 仅仅对比了几个开源模型
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值