Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language

Hal-Eval: A Universal and Fine-grained Hallucination Evaluation Framework for Large Vision Language Models
----
Hal-Eval:大视觉语言模型的通用细粒度幻觉评估框架

abstract

大视觉语言模型 (LVLM) 表现出非凡的能力,但与“幻觉”(图像与其描述之间的不一致)作斗争。先前对 LVLM 的幻觉评估研究已经识别了物体、属性和关系方面的幻觉,但忽略了围绕虚构实体创建完整叙述的复杂幻觉。在本文中,我们介绍了幻觉的精确分类法,其中包括一个新类别:事件幻觉。然后,我们利用先进的LLM来生成和过滤由各种类型的幻觉组成的细粒度幻觉数据,特别关注事件幻觉,为在我们的通用评估框架中整合判别性和生成性评估方法奠定基础。拟议的基准独特地评估了 LVLM 处理广泛幻觉的能力,使其成为衡量 LVLM 处理幻觉功效的可靠且全面的工具。我们将发布我们的代码和数据。

Introduction

GPT4 (OpenAI, 2023)、LLaMA (Touvron et al., 2023a) 和 LLaMA2 (Touvron et al., 2023b) 等大型语言模型 (LLM) 显着增强了自然语言理解 (NLU) 和生成 (NLG) 的能力)。基于这些进步,最近的大型视觉语言模型(LVLM)在处理文本和视觉信息方面表现出更高的熟练程度,引起了研究人员的极大兴趣。 (Zhu等人,2023;Liu等人,2023e,c;Anil等人,2023;Dai等人,2023;Ye等人,2023;Chen等人,2023a;Li等人, 2023d)。

尽管 LVLM 取得了有希望的发展,但它们普遍面临着幻觉的关键障碍,幻觉指的是图像中的事实内容与相关生成的文本描述之间的差异。由于幻觉对 LVLM 的可靠性和鲁棒性提出了重大关注(Liu et al., 2024; Li et al., 2023e; Liu et al., 2023a; Sun et al., 2023a;guan et al., 2023; Zhai et al., 2023) al., 2023),研究人员制定了幻觉评估策略,以支持 LVLM 的实际部署,包括判别法和生成法。前一种方法直接提示候选 LVLM 确定特定幻觉的存在,而后者评估这些候选 LVLM 生成的文本。

先前的研究(Liu et al., 2024; Jing et al., 2023; Gunjal et al., 2023)将视觉语言不匹配描述为不存在的物体、不正确的物体属性或不准确的物体关系的问题,但它确实不包含 LVLM 中观察到的全部幻觉。例如,如图 1 所示,LVLM 输出可以表现出更复杂的幻觉,例如“同时,一只袋鼠在斑马附近跳跃,似乎在觅食”。这种类型的幻觉创造了一个虚构的目标,并围绕它编织了整个叙述,包括它的属性、关系和行为。我们将这些错综复杂的叙述归类为事件幻觉。目前,LVLM 缺乏细粒度的幻觉评估基准来全面解决各种类型的幻觉(例如人造物体、关系、属性和事件),同时也适应判别性和生成性评估方法。

图 1:不同类型的幻觉。与其他类型的幻觉相比,事件幻觉涉及更复杂的视觉语言差异,之前的研究通常被忽视。

为此,我们首先设计一种策略来创建具有细粒度幻觉实例的数据集。通过利用LLM生成和过滤幻觉数据的高级功能,我们开发了一种高效且经济高效的管道来组装具有对象、关系、属性和事件幻觉特征的样本。然后,该管道为我们框架中统一判别性和生成性评估方法奠定了坚实的基础:

• 对于判别性评估,我们构建了一个数据集,其中包含通过我们的管道生成的带有幻觉的图像标题。向候选 LVLM 提供统一的问题模板,以确定我们生成的给定标题是否表现出与图像内容相关的特定类型的幻觉。

• 对于生成评估,我们的管道有助于创建大规模幻觉数据集。该数据集用于将 LVLM 微调为专门的评估器,即 Hal-Evaluator。该评估器评估 LVLM 生成的描述及其相关图像,无需参考说明即可识别各种幻觉类型。

identity 身份认证 购VIP最低享 7 折! triangle vip 30元优惠券将在 04:24:36 后过期 去使用 triangle 数据可视化是将复杂的数据集通过图表、图像等视觉元素进行呈现,以便于人们更容易地理解和解读数据。在“数据可视化期末课设~学生成绩可视化分析.zip”这个压缩包中,我们可以看到一系列与数据可视化相关的资源,包括Jupyter代码、HTML图片、答辩PPT以及Word文档,这些内容涵盖了数据可视化的基础到高级应用,适合于完成一个全面的期末课程设计项目。 Jupyter代码是使用Python编程语言进行数据处理和可视化的主要工具。在这个项目中,学生可能使用了pandas库来加载和清洗数据,可能涉及到的数据处理步骤包括去除重复值、处理缺失值以及数据类型转换等。接着,他们可能使用matplotlib或seaborn库来创建各种图表,如直方图、散点图、箱线图等,以展示学生成绩的分布、对比和趋势。此外,更高级的可视化库如plotly或bokeh可能也被用来实现交互式图表,增加用户对数据的理解深度。 保存的HTML图片是Jupyter Notebook的输出结果,它展示了代码运行后的可视化效果。这些图片可以直观地揭示学生成绩的统计特征,例如平均分、标准差、最高分和最低分等。通过颜色编码或者图例,我们可以识别出不同科目或者不同班级的表现,帮助分析教学质量和学生学习情况。 答辩PPT则可能包含项目的概述、目的、方法、结果和结论。在PPT中,学生可能会详细阐述他们选择特定可视化方法的理由,如何解读图表,以及从数据中得出的洞察。此外,PPT的制作也是展示其表达和沟通能力的重要部分,要求清晰、有逻辑地组织信息。 Word文档可能是项目报告,详细记录了整个过程,包括数据来源、预处理步骤、使用的可视化技术、分析结果以及可能遇到的问题和解决方案。报告中的数据分析部分会详细解释图表背后的含义,例如通过对比不同学科的分数分布,找出哪些科目可能存在困难,或者分析成绩与特定因素(如性别、年级等)的关系。 这个压缩包提供了完整的数据可视化项目实例,涉及了数据获取、处理、可视化和解释的一系列步骤,对于学习和掌握数据可视化技能非常有价值。通过这样的练习,学生不仅能够提高编程技巧,还能培养数据驱动思维和问题解决能力,为未来从事数据分析或相关领域的工作打下坚实的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值