Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language-CSDN博客

本文链接：https://blog.csdn.net/mars_prime/article/details/136452313

Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models
----
Hal-Eval：大视觉语言模型的通用细粒度幻觉评估框架

abstract

大视觉语言模型 (LVLM) 表现出非凡的能力，但与“幻觉”（图像与其描述之间的不一致）作斗争。先前对 LVLM 的幻觉评估研究已经识别了物体、属性和关系方面的幻觉，但忽略了围绕虚构实体创建完整叙述的复杂幻觉。在本文中，我们介绍了幻觉的精确分类法，其中包括一个新类别：事件幻觉。然后，我们利用先进的LLM来生成和过滤由各种类型的幻觉组成的细粒度幻觉数据，特别关注事件幻觉，为在我们的通用评估框架中整合判别性和生成性评估方法奠定基础。拟议的基准独特地评估了 LVLM 处理广泛幻觉的能力，使其成为衡量 LVLM 处理幻觉功效的可靠且全面的工具。我们将发布我们的代码和数据。

Introduction

GPT4 (OpenAI, 2023)、LLaMA (Touvron et al., 2023a) 和 LLaMA2 (Touvron et al., 2023b) 等大型语言模型 (LLM) 显着增强了自然语言理解 (NLU) 和生成 (NLG) 的能力）。基于这些进步，最近的大型视觉语言模型（LVLM）在处理文本和视觉信息方面表现出更高的熟练程度，引起了研究人员的极大兴趣。（Zhu等人，2023；Liu等人，2023e,c；Anil等人，2023；Dai等人，2023；Ye等人，2023；Chen等人，2023a；Li等人， 2023d）。

尽管 LVLM 取得了有希望的发展，但它们普遍面临着幻觉的关键障碍，幻觉指的是图像中的事实内容与相关生成的文本描述之间的差异。由于幻觉对 LVLM 的可靠性和鲁棒性提出了重大关注（Liu et al., 2024; Li et al., 2023e; Liu et al., 2023a; Sun et al., 2023a;guan et al., 2023; Zhai et al., 2023） al., 2023），研究人员制定了幻觉评估策略，以支持 LVLM 的实际部署，包括判别法和生成法。前一种方法直接提示候选 LVLM 确定特定幻觉的存在，而后者评估这些候选 LVLM 生成的文本。

先前的研究（Liu et al., 2024; Jing et al., 2023; Gunjal et al., 2023）将视觉语言不匹配描述为不存在的物体、不正确的物体属性或不准确的物体关系的问题，但它确实不包含 LVLM 中观察到的全部幻觉。例如，如图 1 所示，LVLM 输出可以表现出更复杂的幻觉，例如“同时，一只袋鼠在斑马附近跳跃，似乎在觅食”。这种类型的幻觉创造了一个虚构的目标，并围绕它编织了整个叙述，包括它的属性、关系和行为。我们将这些错综复杂的叙述归类为事件幻觉。目前，LVLM 缺乏细粒度的幻觉评估基准来全面解决各种类型的幻觉（例如人造物体、关系、属性和事件），同时也适应判别性和生成性评估方法。