深度学习与NLP | 四个角度谈多模态大模型产生幻觉的原因

本文来源公众号“深度学习与NLP”,仅用于学术分享,侵权删,干货满满。

原文链接:四个角度谈多模态大模型产生幻觉的原因

原文:https://zhuanlan.zhihu.com/p/697773571

Awesome-MLLM-Hallucination/assets/tax.png at main · showlab/Awesome-MLLM-Hallucination · GitHub

1 数据角度

1.1 数据量

深度学习模型,尤其是大型多模态语言模型(MLLMs),对数据的需求量非常大。数据的数量在构建健壮且可靠的MLLMs时起着重要作用。目前, 图像-文本对数据集和视觉问答(Visual QA)数据被用于训练MLLMs。尽管这些数据集通常比计算机视觉中的典型数据集要大,但它们在数量上仍远少于用于训练大型语言模型(LLMs)的纯文本数据。数据不足可能会导致跨模态对齐出现问题,从而导致幻觉现象(在AMBER和LLava-RLHF)中提到的。

1.2 数据质量

  • 数据噪音

训练多模态语言模型(MLLMs)涉及两个阶段:预训练阶段利用从网络抓取的图像-文本对,其中包含不准确、错位或损坏的数据样本。噪声数据会限制多模态特征对齐,这是MLLMs的基础。至于指令调优数据,流行的方法,如LLaVA,利用先进的GPT-4模型生成指令。然而,ChatGPT是一个无法解释视觉内容的语言模型,存在噪声数据的风险。此外,语言模型本身也存在幻觉问题,进一步增加了风险。LLaVA-1.5 将人工标注的问答数据加入到指令遵循的数据中,有一定的改进,揭示了噪声数据的影响。

  • 数据缺乏多样性

最近研究表明,数据的多样性也起着至关重要的作用。在两个训练阶段使用的数据中,指令调优数据更有可能出现这个问题,因为它通常数量相对较少。一个突出的特点是,大多数指令微调数据样本都由关于图像内容的对话组成。我们将这种类型的数据视为正面引导,因为它始终忠实地反映了图像内容。相比之下,负面微调数据和拒绝回答响应在数据集中很少见。在给定这样的训练数据后,最近研究观察到的一个潜在缺陷是,当前模型倾向于对向模型提出的任何指令都回答“是”,即使一个正确的答案应该是“否”,从而导致了幻觉。这一现象表明了数据多样性的影响。

  • 数据缺乏详细描述

文本描述的详细程度对此问题的影响仍然是一个未解之谜。预训练数据中的文本,例如LAION,通常描述突出对象的整体内容。而指令调优阶段的文本,例如LLaVA-150k,则包含更详细的描述。LLaVA-150k数据集是由基于视觉模型识别的对象生成的。最近的一项工作认为,在训练数据中,通常缺乏与对象位置、属性和非突出对象相关的详细描述。这一特性导致了不完整的跨模态对齐,并剥夺了模型的基于实体的能力。然而,另一项工作假设指导调优数据中的文本描述包含了太多的细节,超出了MLLMs的感知限制。当使用这样详细的数据进行训练时,为了适应地面真实Caption的细节水平和长度分布,模型可能会冒着表达它无法从图像中辨别的细节的风险,从而表现出幻觉。训练数据的详细描述水平仍然是一个未解之谜。

1.3 统计bias

统计偏差。神经网络,尤其是大语言模型,都会倾向于对训练数据进行记忆,训练数据中物体的分布对模型有显著影响。频繁出现的物体和物体共现是两种突出的统计偏差类型。例如:

频繁出现的物体:“人”可能是训练数据中最频繁出现的物体之一。在推理过程中,即使给定的图像中不包含人,模型仍然倾向于预测人的存在。

物体共现: 指的是模型会记住哪两种物体通常“一起出现”的现象。例如,给定一张带有冰箱的厨房图片,当被问及是否有微波炉时,大型语言模型倾向于回答“是”,因为冰箱和微波炉在厨房场景中经常一起出现。大多数数据集都存在偏差。增加数据规模可能会减轻这种影响,但由于现实世界的长尾分布,无法完全解决这个问题。

2 模型角度

多模态大模型结构是由多个模块构成的,通常包括预训练过的视觉模型、预训练过的语言模型、还有将视觉映射为语言模型输入的对齐模型,由于这些模型是连接在一起的,而不是从头开始进行端到端的训练,每个模块的错误可能会累积。每个模块有问题的输出都会导致幻觉。

2.1 视觉模型

幻觉的一个主要原因是一个弱视觉模型,这可能导致视觉概念的误分类或误解释。即使是最强大的视觉模型,在编码过程中也可能经历信息丢失。弱视觉模型意味着弱感知,这从根本上削弱了多模态理解。

2.2 语言模型

语言模型具有一定的先验知识。多模态大型语言模型(MLLMs)的现代架构是不平衡的。通常,语言模型比视觉模型大得多且功能更强,导致倾向于优先考虑基于语言的信息。一个典型的现象是,包含在语言模型中的知识,也称为参数化知识,可能会覆盖视觉内容。例如,给定一张显示红色香蕉的图像,这在现实世界中是反直觉的,但多模态大型语言模型可能仍然回应“黄色香蕉”,因为“香蕉是黄色的”是大型语言模型中根深蒂固的知识。这种语言/知识先验使得模型忽视了视觉内容,并以幻觉的形式回应。

2.3 跨模态对齐模型

对齐模型在多模态大型语言模型(MLLMs)中扮演着至关重要的角色,因为它充当了两种模态之间的桥梁。一个弱对齐模型很容易引起幻觉。一个潜在原因是数据,如前文所述。除此之外,模型本身和训练损失设计也很重要。最近的工作认为,类似于LLaVA的线性投影方法(MLP)保留了大部分信息,但缺乏对MLP后的特征的监督。有可视化显示,投影层之后的特征仍然与语言嵌入有显著差异。这种分布差距在跨模态交互中造成困扰,导致产生幻觉。另一方面,类似于Q-former的架构对提取的视觉特征进行了多样化的监督,将其与语言嵌入空间对齐。然而,使用可学习的Query不可避免地会导致细粒度视觉信息的丢失。

3 训练角度

多模态大型语言模型(MLLMs)的训练目标与大型语言模型(LLMs)基本相同,即自动预测下一个token计算损失。这种损失函数简单直接但效果显著,易于扩展,并在语言建模中展现出良好的性能。然而,一些MLLMs领域的研究表明,由于复杂的空间结构,下一个token预测损失可能不适合学习视觉内容。此外,该损失函数在token级别进行优化,但在序列级别缺乏监督(?)。

另一个观点是,与训练LLMs不同,MLLMs的训练过程中缺少强化学习人类反馈(RLHF)阶段,这可能成为产生幻觉的潜在原因。

4 推理角度

关于推理(生成),一些工作也指出了自回归生成中可能存在的问题。在生成过程中,随着序列长度的增加,自注意力将更多地集中在先前生成的文本标记上,即对视觉内容的注意力被稀释了。通过可视化生成过程中的注意力图,可以观察到生成的内容更多地关注先前的特殊标记,如标点符号,而不是视觉内容标记。这种“失去注意力”的问题也会导致模型的输出响应与视觉内容不相关。

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

  • 10
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值