用于文本到视觉评估的 VQAScore

尽管生成式人工智能取得了重大进展,但由于缺乏有效的指标和标准化基准,科学评估仍然具有挑战性。
例如,广泛使用的 CLIPScore 可以测量(生成的)图像和文本提示之间的对齐程度,但它无法为涉及对象、属性和关系组合的复杂提示产生可靠的分数。

  1. VQAScore.我们提出了一个简单的指标,其表现优于现有技术,而无需使用昂贵的人工反馈或专有模型(例如 ChatGPT 和 GPT4-Vision)。
  2. CLIP-FlanT5 .我们的内部 VQA 模型实现了最先进的文本到图像/视频/3D 评估的 VQAScore,为 CLIPScore 提供了强有力的替代方案。
  3. GenAI-Bench .我们引入了一个文本到视觉的基准,该基准具有真实世界的构图提示,以评估生成模型和自动化指标,超越了现有基准的难度。

在这里插入图片描述

与词袋CLIPScore(红色) 相比,基于我们的 CLIP-FlanT5 模型的VQAScore(绿色)与人类对涉及属性绑定空间/动作/部分关系否定和比较等高阶推理的组合文本提示生成的图像的判断具有更好的相关性。

VQAScore 非常简单但有效。可以使用现成的 VQA 模型端到端计算,因为“是”的概率取决于图像和一个简单的问题,例如“此图是否显示“{text}”?请回答是或否。
在这里插入图片描述

我们发现使用双向图像问题编码器非常有益,它允许视觉嵌入受到所提问题的影响(反之亦然)。我们通过在公共 VQA 数据集上微调CLIP-FlanT5模型来实现这一点。该模型在文本到图像/视频/3D 评估中树立了新的领先地位,而无需使用昂贵的人工反馈。
在这里插入图片描述

GenAI-Bench

我们引入了全面的文本到视觉生成基准,甚至挑战了 DALL-E 3 和 Gen2 等领先模型。
GenAI-Bench 为基本(属性/场景/关系)和高级(计数/区分/比较/逻辑)组合推理技能提供了细粒度的标签。

与 VQAScore 一起使用,GenAI-Bench 可以对生成模型进行可重复的评估。为了验证 VQAScore 与人类判断的一致性,我们还收集了十个图像和视频生成模型的大量人工评分。我们计划发布这些评分以评估未来的自动化指标。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值