Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models
----
Hal-Eval:大视觉语言模型的通用细粒度幻觉评估框架
abstract
大视觉语言模型 (LVLM) 表现出非凡的能力,但与“幻觉”(图像与其描述之间的不一致)作斗争。先前对 LVLM 的幻觉评估研究已经识别了物体、属性和关系方面的幻觉,但忽略了围绕虚构实体创建完整叙述的复杂幻觉。在本文中,我们介绍了幻觉的精确分类法,其中包括一个新类别:事件幻觉。然后,我们利用先进的LLM来生成和过滤由各种类型的幻觉组成的细粒度幻觉数据,特别关注事件幻觉,为在我们的通用评估框架中整合判别性和生成性评估方法奠定基础。拟议的基准独特地评估了 LVLM 处理广泛幻觉的能力,使其成为衡量 LVLM 处理幻觉功效的可靠且全面的工具。我们将发布我们的代码和数据。
Introduction
GPT4 (OpenAI, 2023)、LLaMA (Touvron et al., 2023a) 和 LLaMA2 (Touvron et al., 2023b) 等大型语言模型 (LLM) 显着增强了自然语言理解 (NLU) 和生成 (NLG) 的能力)。基于这些进步,最近的大型视觉语言模型(LVLM)在处理文本和视觉信息方面表现出更高的熟练程度,引起了研究人员的极大兴趣。 (Zhu等人,2023;Liu等人,2023e,c;Anil等人,2023;Dai等人,2023;Ye等人,2023;Chen等人,2023a;Li等人, 2023d)。
尽管 LVLM 取得了有希望的发展,但它们普遍面临着幻觉的关键障碍,幻觉指的是图像中的事实内容与相关生成的文本描述之间的差异。由于幻觉对 LVLM 的可靠性和鲁棒性提出了重大关注(Liu et al., 2024; Li et al., 2023e; Liu et al., 2023a; Sun et al., 2023a;guan et al., 2023; Zhai et al., 2023) al., 2023),研究人员制定了幻觉评估策略,以支持 LVLM 的实际部署,包括判别法和生成法。前一种方法直接提示候选 LVLM 确定特定幻觉的存在,而后者评估这些候选 LVLM 生成的文本。
先前的研究(Liu et al., 2024; Jing et al., 2023; Gunjal et al., 2023)将视觉语言不匹配描述为不存在的物体、不正确的物体属性或不准确的物体关系的问题,但它确实不包含 LVLM 中观察到的全部幻觉。例如,如图 1 所示,LVLM 输出可以表现出更复杂的幻觉,例如“同时,一只袋鼠在斑马附近跳跃,似乎在觅食”。这种类型的幻觉创造了一个虚构的目标,并围绕它编织了整个叙述,包括它的属性、关系和行为。我们将这些错综复杂的叙述归类为事件幻觉。目前,LVLM 缺乏细粒度的幻觉评估基准来全面解决各种类型的幻觉(例如人造物体、关系、属性和事件),同时也适应判别性和生成性评估方法。
图 1:不同类型的幻觉。与其他类型的幻觉相比,事件幻觉涉及更复杂的视觉语言差异,之前的研究通常被忽视。
为此,我们首先设计一种策略来创建具有细粒度幻觉实例的数据集。通过利用LLM生成和过滤幻觉数据的高级功能,我们开发了一种高效且经济高效的管道来组装具有对象、关系、属性和事件幻觉特征的样本。然后,该管道为我们框架中统一判别性和生成性评估方法奠定了坚实的基础:
• 对于判别性评估,我们构建了一个数据集,其中包含通过我们的管道生成的带有幻觉的图像标题。向候选 LVLM 提供统一的问题模板,以确定我们生成的给定标题是否表现出与图像内容相关的特定类型的幻觉。
• 对于生成评估,我们的管道有助于创建大规模幻觉数据集。该数据集用于将 LVLM 微调为专门的评估器,即 Hal-Evaluator。该评估器评估 LVLM 生成的描述及其相关图像,无需参考说明即可识别各种幻觉类型。