【论文学习】TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering

祁彧w

已于 2024-09-12 18:30:42 修改

阅读量1k

点赞数 9

分类专栏：论文学习文章标签：人工智能生成模型

于 2024-09-12 18:29:15 首次发布

本文链接：https://blog.csdn.net/Joker_Q/article/details/142182896

版权

本文通过论文“TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering”，介绍了一种新的文本到图像生成模型(Text-Image Generative Models)的评估方法，其采用了VQA来衡量生成图像与其文本输入之间的忠实度，可以从更细粒度的层面评估文本图像生成模型的性能，例如颜色、数量以及组合关系。

本文已上传至祁彧w博客，欢迎访问~

Abstract

尽管成千上万的研究人员、工程师和艺术家积极致力于改进文本到图像生成模型，但系统通常无法生成与文本输入准确一致的图像。我们引入了 TIFA（带问答的文本到图像忠实度评估），这是一种自动评估指标，它通过视觉问答 (VQA) 来衡量生成的图像与其文本输入的忠实度。具体来说，给定一个文本输入，我们使用语言模型自动生成几个问答对。我们通过检查现有的 VQA 模型是否可以使用生成的图像回答这些问题来计算图像忠实度。TIFA 是一种无参考指标，可以对生成的图像进行细粒度和可解释的评估。与现有指标相比，TIFA 与人类判断的相关性也更好。基于这种方法，我们引入了 TIFA v1.0，这是一个基准，由 4K 个不同的文本输入和 12 个类别（对象、计数等）的 25K 个问题组成。我们使用 TIFA v1.0 对现有的文本到图像模型进行了全面评估，并强调了当前模型的局限性和挑战。例如，我们发现，尽管当前的文本转图像模型在颜色和材质方面表现良好，但在计数、空间关系和组合多个对象方面仍然存在困难。我们希望我们的基准测试能够帮助仔细衡量文本转图像合成的研究进展，并为进一步的研究提供有价值的见解。

在这里插入图片描述

TIFA 工作原理的说明，以及与广泛使用的 CLIPScore 和 SPICE 指标的比较。给定文本输入，TIFA 使用 GPT-3 生成几个问答对，然后 QA 模型对它们进行过滤（显示了此文本输入的 14 个问题中的 3 个）。TIFA 测量 VQA 模型是否可以在给定生成的图像的情况下准确回答这些问题。在此示例中，TIFA 表示 Stable Diffusion v2.1 生成的图像比 v1.5 生成的图像更好，而 CLIP 和 SPICE 得出相反的结果。文本输入来自 MSCOCO 验证集。

Introduction

当前扩散模型的一个关键的瓶颈是，缺乏可靠的自动评估指标来评估文本到图像生成忠实度。其中一个流行的指标是 CLIPScore^[1]，它测量文本输入和生成图像的 CLIP 嵌入^[2] 之间的余弦相似度。然而，由于 CLIP 在计数对象^[2]或组合推理^[3] 方面效果不佳，CLIPScore 不可靠且通常不准确。另一类评估指标使用图像字幕，其中图像字幕模型首先将图像转换为文本，然后通过将其与文本输入进行比较来评估图像字幕。不幸的是，使用字幕模型是不充分的，因为它们可能会忽略图像中的显着信息或关注其他非必要的图像区域^[4]；例如，字幕模型可能会说图 1 中的图像是“一片草地，背景是树木”。此外，评估文本（标题）生成本身就具有挑战性^[5]^[6]。另一个最近的文本到图像评估是 DALL-Eval^[7]，它使用对象检测来确定文本中的对象是否在生成的图像中。然而，这种方法只适用于合成文本，并沿着对象、计数、颜色和空间关系的有限轴测量忠实度，但错过了活动、地理位置、天气、时间、材料、形状、大小和我们在回忆记忆中的图像时经常询问的其他潜在类别 ^[8]。

因此，作者提出了TIFA方法，一种评估文本到图像生成忠诚度的新指标。

在这里插入图片描述

图 1. (a) Overview of how TIFA evaluates the faithfulness of a synthesized image. TIFA 使用语言模型 (LM)、问答 (QA) 模型和视觉问答 (VQA) 模型。给定一个文本输入，再使用 LM 生成几个问答对，然后通过 QA 模型对其进行过滤。为了评估合成图像对文本输入的忠实度，VQA 模型使用图像回答这些视觉问题，然后检查答案的正确性。 (b) TIFA v1.0 benchmark. 虽然 TIFA 适用于任何文本提示，但为了允许直接比较不同的研究，并为了易于使用，作者引入了 TIFA v1.0 基准，这是一个文本输入存储库以及带有答案选项的预生成的问答元组。为了评估文本到图像模型，用户首先在 TIFA v1.0 中为文本输入生成图像，然后使用提供的工具对生成的图像执行 VQA 以计算 TIFA。

根据图1，给定一个文本输入库，作者通过语言模型（此处为 GPT-3 [3]）自动为每个文本生成问答对。随后使用问答 (QA) 系统（此处为 UnifiedQA^[9]）来验证和过滤这些问答对。为了评估生成的图像，作者使用视觉问答 (VQA) 系统（此处为 mPLUG large^[10]、BLIP-2^[11]等）来回答给定生成图像的问题。并将图像对文本输入的忠实度衡量为 VQA 系统生成的答案的准确性。虽然 TIFA 的准确性取决于 VQA 模型的准确性，但其实验表明，TIFA 与人类判断的相关性比 CLIPScore（Spearman’s ρ = 0.60 vs. 0.33）和基于字幕的方法（Spearman’s ρ = 0.60 vs. 0.34）高得多。此外，由于 LM 和 VQA 模型将继续改进，因此 TIFA 可以随着时间的推移将继续变得更加可靠。此外，作者提出的指标可以自动检测生成过程中何时缺少元素：在图 1 中，TIFA 检测到生成的图像不包含电视。

The TIFA Metric

作者引入了一个框架，用于自动评估图像与其文本提示的忠实度。给定一个文本输入 T，其目标是测量生成的图像 I 的忠实度。

根据输入文本 T，生成 N 个多项选择问答元组 ${Q_i,C_i,A_i\}_{i=1}^N$ ，其中 $Q_i$ 是一个问题， $C_i$ 是一组答案选项， $A_i$ 是一个属于[latex]C_i[/latex]集合的标准答案。给定 T、 $Q_i$ 和 $C_i$ ，可以推断出答案 [latex]A_i[/latex]。接下来，对于每个问题 $Q_i$