Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance----通过

本文提出了一种名为MARINE的框架,通过集成开源视觉模型和无分类器引导,有效且高效地降低大视觉语言模型中物体幻觉的问题,无需昂贵的训练或API。实验证明了其在多种LVLM上的有效性,优于现有微调方法。
摘要由CSDN通过智能技术生成

Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance
----
通过无分类器指导减轻大视觉语言模型中的物体幻觉

摘要

大视觉语言模型(LVLM)的进步日益凸显了它们容易产生图像中不存在物体的幻觉这一关键问题。为了解决这个问题,以前的工作重点是使用专门策划的数据集或强大的 LLM(例如 GPT-3.5)来纠正 LVLM 的输出。然而,这些方法需要昂贵的培训/微调或 API 访问高级 LLM 来纠正模型的输出生成后。在本文中,我们通过引入一个名为“Mitigating幻觉通过无分类指导(MARINE)”的框架来应对这一挑战,该框架既无需训练,也无需API,可以有效且高效地减少生成过程中的物体幻觉。具体来说,MARINE 通过集成现有的开源视觉模型来丰富 LVLM 的视觉环境,并采用无分类器引导来合并额外的对象接地功能,以提高 LVLM 各代的精度。通过对 6 个流行的 LVLM 和不同评估指标的综合评估,我们证明了 MARINE 的有效性,它甚至优于现有的基于微调的方法。值得注意的是,根据 GPT-4V 的评估,它不仅减少了幻觉,还提高了 LVLM 生成的细节。

简介

大型语言模型 (LLM) 的出现推动了将其卓越功能扩展到多模式数据方面的进步。基于对齐视觉和文本嵌入空间的预训练视觉语言模型(Radford et al., 2021; Jia et al., 2021; Alayrac et al., 2022)的开发,大视觉语言模型(LVLM)已经获得了实质性的进展。架构开发(Liu et al., 2023d;Zhu et al., 2023;Ye et al., 2023;Dai et al., 2023a;Gao et al., 2023)和基准数据集(Xu et al., 2023)的关注2023;Lu 等人,2024)。然而,与文本 LLM 中的幻觉问题类似(Ji 等人,2023),其中通过输入提示生成不相关的内容,LVLM 面临着称为对象幻觉的特定挑战:为给定图像生成不存在对象的描述( Li等人,2023b;Wang等人,2023b;Zhou等人,2023;Fu等人,2023;Lovenia等人,2023)。这样的问题尤其令人担忧,因为它会损害模型的准确性和可靠性,特别是考虑到 LVLM 越来越多地应用于医学成像等安全关键型下游任务(Chambon 等人,2022 年;Bazi 等人,2023 年)。

为了应对 LVLM 中物体幻觉这一紧迫问题,早期的尝试(Liu et al., 2023a,b;Gunjal et al., 2023;Wang et al., 2023a)侧重于纠正预训练固有的偏差通过整理高质量的数据集进行微调,专门用于减轻物体幻觉。然而,创建如此广泛、高质量的数据集以及随后对 LVLM 进行微调需要在人工注释和计算资源方面付出巨大成本。因此,最近的工作提出了更具成本效益的策略,采用带有最小微调校正器模型(Zhou et al., 2023;Zhai et al., 2023)或高级 GPT API(Yin et al., 2023)的生成后校正方法(Yin et al., 2023)。 ,2023)。虽然后生成方法有效地纠正了生成内容中的错误,但值得注意的是,它们也会覆盖模型的原始输出。这种现象如图 1 所示。特别是,后生成的专门输入(例如,“纠正此描述中的幻觉对象”)可能会对 LVLM 在响应不同类型问题和遵守操作说明。校正器模型,例如 GPT-3.5,也会自行引入固有的幻觉。像 LURE (Zhou et al., 2023) 这样的微调方法可能会进一步导致微调数据集中注释的过度拟合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值