Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models
----
Hal-Eval:大视觉语言模型的通用细粒度幻觉评估框架
abstract
大视觉语言模型 (LVLM) 表现出非凡的能力,但与“幻觉”(图像与其描述之间的不一致)作斗争。先前对 LVLM 的幻觉评估研究已经识别了物体、属性和关系方面的幻觉,但忽略了围绕虚构实体创建完整叙述的复杂幻觉。在本文中,我们介绍了幻觉的精确分类法,其中包括一个新类别:事件幻觉。然后,我们利用先进的LLM来生成和过滤由各种类型的幻觉组成的细粒度幻觉数据,特别关注事件幻觉,为在我们的通用评估框架中整合判别性和生成性评估方法奠定基础。拟议的基准独特地评估了 LVLM 处理广泛幻觉的能力,使其成为衡量 LVLM 处理幻觉功效的可靠且全面的工具。我们将发布我们的代码和数据。
Introduction
GPT4 (OpenAI, 2023)、LLaMA (Touvron et al., 2023a) 和 LLaMA2 (Touvron et al., 2023b) 等大型语言模型 (LLM) 显着增强了自然语言理解 (NLU) 和生成 (NLG) 的能力)。基于这些进步,最近的大型视觉语言模型(LVLM)在处理文本和视觉信息方面表现出更高的熟练程度,引起了研究人员的极大兴趣。 (Zhu等人,2023;Liu等人,2023e,c;Anil等人,2023;Dai等人,2023;Ye等人,2023;Chen等人,2023a;Li等人, 2023d)。
尽管 LVLM 取得了有希望的发展,但它们普遍面临着幻觉的关键障碍,幻觉指的是图像中的事实内容与相关生成的文本描述之间的差异。由于幻觉对 LVLM 的可靠性和鲁棒性提出了重大关注(Liu et al., 2024; Li et al., 2023e; Liu et al., 2023a; Sun et al., 2023a;guan et al., 2023; Zhai et al., 2023) al., 2023),研究人员制定了幻觉评估策略,以支持 LVLM 的实际部署,包括判别法和生成法。前一种方法直接提示候选 LVLM 确定特定幻觉的存在,而后者评估这些候选 LVLM 生成的文本。
先前的研究(Liu et al., 2024; Jing et al., 2023; Gunjal et al., 2023)将视觉语言不匹配描述为不存在的物体、不正确的物体属性或不准确的物体关系的问题,但它确实不包含 LVLM 中观察到的全部幻觉。例如,如图 1 所示,LVLM 输出可以表现出更复杂的幻觉,例如“同时,一只袋鼠在斑马附近跳跃,似乎在觅食”。这种类型的幻觉创造了一个虚构的目标,并围绕它编织了整个叙述,包括它的属性、关系和行为。我们将这些错综复杂的叙述归类为事件幻觉。目前,LVLM 缺乏细粒度的幻觉评估基准来全面解决各种类型的幻觉(例如人造物体、关系、属性和事件),同时也适应判别性和生成性评估方法。
图 1:不同类型的幻觉。与其他类型的幻觉相比,事件幻觉涉及更复杂的视觉语言差异,之前的研究通常被忽视。
为此,我们首先设计一种策略来创建具有细粒度幻觉实例的数据集。通过利用LLM生成和过滤幻觉数据的高级功能,我们开发了一种高效且经济高效的管道来组装具有对象、关系、属性和事件幻觉特征的样本。然后,该管道为我们框架中统一判别性和生成性评估方法奠定了坚实的基础:
• 对于判别性评估,我们构建了一个数据集,其中包含通过我们的管道生成的带有幻觉的图像标题。向候选 LVLM 提供统一的问题模板,以确定我们生成的给定标题是否表现出与图像内容相关的特定类型的幻觉。
• 对于生成评估,我们的管道有助于创建大规模幻觉数据集。该数据集用于将 LVLM 微调为专门的评估器,即 Hal-Evaluator。该评估器评估 LVLM 生成的描述及其相关图像,无需参考说明即可识别各种幻觉类型。
我们在我们的框架内对五位领先的LLM在域内和域外数据集进行了彻底的实验和分析,评估了他们在判别范式和生成范式下的幻觉表现。我们的主要发现是:
• 我们的方法减轻了评估LVLM 中观察到的偏差,LVLM 通常对POPE 等基准中的歧视性问题默认回答“是”,从而促进更平衡的回答。
• 利用思想链(COT)可以显着帮助模型在判别性评估过程中最大限度地减少幻觉,特别是那些涉及关系和事件的评估。
• 幻觉的发生率,尤其是事件幻觉,随着输出长度的增加而增加。长度控制成为生成评估的一个重要方面,影响不同输出长度下 LVLM 之间的比较性能趋势。
• 用于训练评估器的幻觉样本也可作为 LVLM 的有效监督微调数据,有助于减少幻觉并提高其基准性能。
总之,我们介绍了一种新的 LVLM 幻觉类别(事件幻觉),这是一个针对 LVLM 的细粒度评估框架,涵盖各种幻觉类型并统一判别性和生成方法,以及一些开创性的见解来指导未来视觉语言幻觉的研究。
2 AFHA: Automatic Fine-grained Hallucination Annotation Pipline
----
2 ALPHA:自动细粒度幻觉注释管道
现有的多模态幻觉研究缺乏针对幻觉的细粒度注释的大规模数据集。为了解决这个问题,我们设计了 AFHA,一个自动细粒度幻觉注释管道,具有四种幻觉类型和特定幻觉内容的注释。
数据注释。我们使用 GPT-4 提示方法注释图像文本配对数据。我们最初为各种类型的幻觉建立了严格的定义。在此基础上,我们利用 GPT-4 根据幻觉的不同分类重新表述整理后的图像文本对。此步骤涉及将独特的幻觉元素注入原始字幕中。图 2(b) 展示了一个旨在生成“对象”注释的提示示例。该过程的结果是收集了富含特定幻觉类别的图像描述。此外,我们将炮制特定幻觉内容的责任委托给了 GPT-4。因此,该策略产生了由 GPT-4 提供的广泛注释的数据集,其中不同类型幻觉的注释样本如图 2(c) 所示。详细信息请参见附录B.2。
图 2:子图 (a) 说明了 AFHA 的流程。左下子图(b)可视化生成物体幻觉注释的提示(其他幻觉注释的提示请参见附录B.2),右下子图可视化四种类型的注释示例的幻觉。
数据过滤。在初始注释阶段之后,我们发现标记数据的质量仍然不能令人满意。随机抽样显示,大约 30% 的注释数据集仍然含有无法满足我们严格的标记标准的噪声。因此,我们开始制作一个定制的提示来委托 GPT4 来执行清除和完善噪声注释的任务,附录 B.3 中详细概述了这一过程。经过GPT-4细致的清理操作,人工验证过程确定97%以上的数据符合规定的标注标准。
3 Hal-Eval: A Universal Hallucination Evaluation Benchmark
----
3 Hal-Eval:通用幻觉评估基准
在 AFHA 的基础上,我们提出了一个全面且通用的幻觉评估基准,名为 Hal-Evaluator。如图3所示,Hal-Evaluator包括判别性评估和生成性评估,能够有效评估不同类型的幻觉。在下面的小节中,我们将首先介绍判别性评估中使用的评估数据集,然后我们将介绍判别性评估的详细描述。最后,我们将介绍生成评估。
图 3:该图提供了 Hal-Eval 中使用的判别性评估和生成性评估的示意图。
3.1 判别性评估
3.1.1 构建评估数据集
数据收集:过去,POPE(Li et al., 2023e)等评估基准主要依赖于 COCO(Lin et al., 2014)等手动标注来源的数据集。然而,这些数据集广泛用于许多 LVLM 的训练和微调,导致评估数据与这些模型的训练数据在域内。因此,模型的零样本幻觉能力无法真正评估。为了解决这个问题,我们的评估数据集分为两部分。一部分由域内评估数据组成,由来自 COCO 2014 验证集和 COCO 2017 测试集的图像文本对组成。另一部分来自基于网络的数据集,例如 CC (Changpinyo et al., 2021)、SBU (Ordonez et al., 2011) 和 LAION (Schuhmann et al., 2022),提供域外数据随机抽样。
数据注释:我们利用第 2 节中编写的自动注释流程 AFHA 来注释域内和域外评估数据。这一过程产生了 5,000 个域内评估数据的详细注释和 5,000 个域外评估数据的详细注释,每个注释都描述了幻觉类型和内容,如子图 2 (c) 中的示例所示。形式化的带注释样本表示为 S = {I, CT , CO, CR, CE, CA},其中 I 表示图像,CT 表示正确的图像标题,CO、CR、CE、CA 分别表示包含物体幻觉的标题,关系幻觉、事件幻觉和属性幻觉。
3.1.2 评估过程
在之前的工作中,为评估某种类型的幻觉而提出的判别评估方法直接询问 LVLM 图像中是否存在该类型的内容。例如,评估物体幻觉直接询问特定物体的存在。相比之下,我们提出了一种更自然的提问方法,如下所示。提示 LVLM。假设样本为S,则提示的形式如下:
<图像> I 描述:C ∈ {CT , CO, CR, CE, CA}。问:标题中的描述是否准确反映了图像的内容?
通过控制不同类型的字幕C,我们可以基于统一的提示模板来评估不同类型的幻觉。例如,我们可以设置C = CA来评估属性型幻觉。
评估指标。与 POPE (Li et al., 2023e) 类似,我们也使用 Accuracy、Precision、Recall、F1 分数和“Yes”比率作为评估指标。这里,准确率代表正确回答的案例数量,而精确率和召回率分别表示正确回答问题并回答“是”或“否”的比例。 F1 分数综合了精确率和召回率的结果,我们选择它作为主要评估指标。 “是比率”作为分析模型行为的参考。
3.2 生成评估
3.2.1 概述
关于生成评估,当前的评估方法要么依赖于需要订阅费的专有模型,例如 GPT-4,要么依赖于需要额外的真实注释的微调大语言模型(LLM)——这个过程非常昂贵。这极大地限制了评估模型的可扩展性。为此,我们提出了 Hal-Evaluator,这是一种无参考、开源的评估模型,专门用于检测幻觉内容。 Hal-Evaluator 在 LLaVA 1.5 (Liu et al., 2023c) 上进行了微调,LLaVA 1.5 也是一个 LVLM;如图 3 所示,它将接受评估的 LVLM 提供的图像描述以及相应的图像本身作为输入。接下来,它会评估描述是否包含幻觉。如果检测到幻觉,它会提供幻觉的具体内容和分类。最终,它甚至可以修改描述中的幻觉信息,以输出准确的描述。通过这种方式,我们的生成评估消除了额外参考注释的需要,从而能够仅基于图像内容进行幻觉评估。
为了训练能够有效识别不同类型幻觉的 Hal-Evaluator,需要大规模、细粒度的幻觉图像文本数据集,因为它们有助于细化旨在检测和纠正幻觉内容的 Hal-Evaluator 的训练。然而,目前还没有这种规模的带有详细注释的数据集。因此,我们最初构建了Hal-Data,这是第一个基于AFHA管道的大规模、细粒度的带有幻觉注释的数据集。
3.2.2 Hal-Data 的构建
该数据集名为 Hal-Data,是基于自动幻觉标注管道 AFHA 生成的,包含 200 万个实例。 Hal-Data 包含两部分:130K GPT-4 注释和策划的图像文本对,名为 Hal-Data 130k,每对由图像、有效图像标题和包含幻觉的描述组成。第二部分由名为 Hal-Data 2M 的 2M 个图像文本对组成,由我们的字幕模型在 130K 高质量字幕上训练而成。在下一节中,我们将详细阐述创建 Hal 数据所涉及的过程。
Hal-Data 130k 的数据收集 为了最大限度地提高数据的多样性和全面性,我们最初编译了来自各种来源的约 200K 图像,其中包括来自域内 COCO 数据集的 80K 图像(Lin 等,2014)和 80K 网络图像,例如来自 CC (Changpinyo et al., 2021)、SBU (Ordonez et al., 2011) 和 LAION (Schuhmann et al., 2022) 的数据。此外,为了更好地与 LVLM 输出的风格保持一致,我们还从 ShareGPT4-V 中收集了 40K 个图像文本数据集(Chen 等人,2023b)。随后,我们使用 AFHA 对这部分数据进行注释,最终得到了 130K GPT4 精心注释的实例集合,并将其命名为 Hal-Data 130k。
Hal-Data 2M 的生成。在 Hal-Data 130k 数据集的基础上,我们努力进一步扩大数据集的规模。由于使用 GPT-4 的成本较高,我们利用 Hal-Data 130k 数据集对当前开源的大规模语言模型 LLaMA2 13B (Touvron et al., 2023a) 进行微调,得到了幻觉数据注释模型名为 Hal-Annotator。由于对多样化且全面的数据进行训练,Hal-Annotator 能够生成高质量且与内容相关的注释。这种方法允许数据扩展阶段继续进行,而无需使用付费的 GPT-4。为了积累大量高质量的图像-文本对,我们从当前公共数据集中选择了 200 万个图像-标题对的子集(更多详细信息,请参阅附录 A.1),并使用我们预先训练的 Hal-Annotator 来修改通过介绍不同类型的幻觉并对其进行注释来提供图像说明。
3.2.3 Hal-Evaluator 的指令调整。
我们进一步开发了一个名为Hal-Data-SFT的指令微调专用数据集,专注于基于HalData的图文指令中幻觉内容的检测和修改。我们首先展示一张图像以及可能包含幻觉的描述,然后我们询问该描述是否包含幻觉元素。在这个阶段,30%的微调数据由没有幻觉的图像描述组成,从而形成单轮对话。对于剩下的70%有幻觉描述的人,我们进行多轮对话,继续询问所出现的幻觉的类型和内容。在最后一轮中,我们指示 Hal-Evaluator 修改图像描述以消除任何幻觉内容,最终提供没有幻觉的图像描述。
3.2.4 评价指标
为了评估 LVLM 的生成幻觉,我们提示它们描述来自域内 5K 数据集和第 3.1.1 小节中提到的域外 5K 数据集的图像,长度较短和较长。然后,这些描述与相应的图像一起被输入到预先训练的 Hal-Evaluator 中。我们的程序包括提示 Hal-Evaluator 评估任何幻觉内容的存在和类别。准确性是我们评估的主要指标,它衡量正确识别为没有幻觉的输出的比例。假设所有输出的数量为 N ,包含幻觉的输出为 Nh ,准确率计算为 A = N−Nh/ N 。此外,我们还跟踪各种类型幻觉的概率,并将其封装在幻觉比率中。例如,输出包含物体幻觉的数量为No h,物体比例ro计算为rO=No h /Nh。
4 实验
Hal-Eval 分为两个不同的部分:判别性评估和生成性评估。我们选择评估五个广泛使用的开源 LVLM:MiniGPT-4 (Zhu et al., 2023)、InstructBLIP (Dai et al., 2023)、mPLUG-owl (Ye et al., 2023)、LLaVA (Liu et al., 2023) ., 2023e), LLaVA1.5 (Liu 等人, 2023c)。
4.1 判别性评价
4.1.1 主要结果
如表 1 所示,我们按照第 3 小节中概述的方法评估了五个模型在不同类型幻觉上的性能。首先,我们注意到从 POPE(Li 等人,2023e)指标得出的结果表明大多数模型都倾向于选择“是”的回答。相比之下,在我们的判别性评估中,这种倾向在 InstructBLIP 模型中得到了专门的体现。这种区别有助于强调我们的评估策略在减弱 LVLM 中经常遇到的“是”答案倾向方面的效率。此外,在针对域外数据集(而不是域内数据集)进行测试时,LLaVA1.5 和 LLaVA 表现出更明显的幻觉偏好。这种趋势可能归因于模型指令调整阶段普遍纳入域内图像。
4.1.2 歧视性评价分析
数据可靠性分析。我们提出的评估数据集包含 5,000 个域内图像和 5,000 个域外图像,我们根据 AFHA 框架对其进行注释。为了验证注释的准确性,我们从域内和域外数据中各随机抽取 100 个案例进行手动验证。如表所示,我们发现经过GPT-4的标注和过滤处理后,域内数据集中的标注准确率达到了98%。同时,域外数据集的标注准确率为 97%。两个数据集的高准确性强调了我们注释过程的有效性。
思想链(COT)对于减轻歧视性幻觉的有效性。对于判别性评估,我们采用了思想链(COT)方法来系统地评估 LVLM 是否与图像内容与其各自的标题相匹配(更多详细信息请参阅附录 B.4)。如图 4 所示,在将 COT 应用于 LLaVA 1.5 后,我们观察到域内和域外数据集上的辨别性幻觉显着减少。我们的实验表明,利用 COT 在减少 LVLM 的辨别性幻觉方面特别有效,尤其是与关系和事件相关的幻觉。我们假设关系和事件类型幻觉固有的复杂性源于它们对情境和推理理解的内在依赖。
4.2 生成评估
4.2.1 主要结果
如表 2 所示,我们的调查显示当代模型仍然有产生幻觉的明显倾向。 MiniGPT-4 和 InstructBLIP 显示了强大的域内准确率,后者在平均输出长度约为 10 个标记时达到 89.1% 的准确率。无论是在域内数据还是域外数据上进行测试,mPLUG-owl 和 LLaVA 在所有评估指标上都表现出中等性能。此外,我们发现(1)当模型产生较短的输出时,模型产生的大部分幻觉内容主要由物体组成。 (2).随着输出长度的增加,所有模型都更容易产生幻觉内容,事件幻觉的发生率明显上升。
4.2.2 生成评价与人类评价的相关性分析。
为了验证生成评估和人类判断之间的相关性,我们进行了以下实验。我们首先从 COCO 2014 (Lin et al., 2014) 中选择测试数据集进行人类评估。该测试集包含 50 张图像。每张图像都补充有 COCO 数据集提供的五个参考标题和对象标签。我们选择了三个 LVLM – LLaVA (Liu et al., 2023e)、mPLUG-owl (Ye et al., 2023) 和 instructBLIP (Dai et al., 2023) – 来描述测试集的内容,我们寻求15 位人类注释者进行注释和评估,以评估这些数据中是否存在幻觉。我们对五个基准进行了比较:ROUGE-L (Lin, 2004)、BLEU-4 (Papineni et al., 2002)、CHAIR (Rohrbach et al., 2018)、Hal-EML (Wang et al., 2023b) ,GPT4-V 以及 Hal-Eval 模块 – Hal-Eval-Generative。表 3 描述了关于 LVLM 可信度的各种评估指标和人类判断之间的相关性,使用 Pearson’s r、Spearman’s ρ 和 Kendall’s τ 进行衡量。在各种各样的指标中,我们的生成评估指标明显脱颖而出,它表现出强大的正相关性,强调了与人类感知的卓越一致性。
Hal-Evaluator 的有效性。为了进一步验证 Hal-Evaluator 对于幻觉检测的有效性,我们基于第 3.1.2 小节中编写的判别方法评估了 Hal-Evaluator 和 GPT-4V(作为候选 LVLM 而不是这里的评估器),评估了不同类型幻觉的检测。 5K域内数据中的幻觉。结果表明,Hal-Evaluator 在幻觉检测能力上优于 GPT-4V,如图 5(a)所示。
图 5:左侧子图显示了 GPT-4V 和 Hal-Evaluator 的判别评估结果。右子图将GPT-4V和HalEvaluator检测到的幻觉内容之间的ROUGE-L与注释的幻觉内容进行了比较。
事件幻觉分析。我们要求 GPT4V 和 Hal-Evaluator 识别 Hal-Eval 域内评估数据集的图像描述中的幻觉内容。 (请注意,我们的评估数据集还经过仔细注释,以标记描述中的幻觉内容。)我们评估了 GPT-4V 和 Hal-Evaluator 识别的幻觉内容与包含幻觉的数据集中存在的实际幻觉信息之间的重叠。使用 ROUGE-L 分数对重叠进行量化,如子图 5 (b) 所示。实验结果表明,对于前三类幻觉(物体、属性、关系),GPT-4V和Hal-Evaluator都能够从图像描述中准确识别出大部分幻觉内容。然而,对于事件幻觉,GPT-4V 无法精确定位幻觉内容,而 Hal-Evaluator 则表现出准确的识别能力。这种差异强调了事件幻觉固有的复杂性,同时证明了 HalEvaluator 的可靠性。此外,Hal-Evaluator 拥有增强的评估功能,使其能够减少对 GPT-4V 等外部 API 的依赖。此外,Hal-Evaluator 还可以通过纠正幻觉内容来减轻 LVLM 中的幻觉(参见附录 C.3)。