为什么多模态大语言模型最近用BLIP2中Q-Former结构的变少了？

datian1234

于 2024-09-15 08:15:00 发布

阅读量373

点赞数 5

文章标签：语言模型人工智能自然语言处理 ai agi 多模态 LLM

本文链接：https://blog.csdn.net/datian1234/article/details/142252468

版权

前言

本篇介绍为什么多模态大语言模型（MLLM）最近的工作中用BLIP2中Q-Former结构的变少了？

简单来说，相较于MLP的方案，即LLaVA-1.5，BLIP-2中的Q-Former模型在参数量上更为庞大，其收敛过程也相对缓慢。在同等条件下，Q-Former的性能并未达到LLaVA-1.5所展现出的卓越水平。值得注意的是，即使在数据和计算资源都很充裕的情况下，Q-Former的性能提升也并不显著。

下面说明原因：

虽然许多人不愿意将Q-Former的成就归功于BLIP系列，并且更倾向于将其称为Attention Pooling。在MLP与Q-Former之间的竞争实质上反映了LLaVA系列与BLIP系列之间的竞争。社群普遍偏好MLP的选择，实际上就是对LLaVA工作的追随和支持。

下图为BLIP2和LLaVA的架构图。

在这里插入图片描述

从图中可以看到，使用query token来压缩视觉信息无法确保无损，并且随着压缩程度的增加，可能导致更严重的幻觉问题。相比之下，直接使用投影（projection）方法将视觉信息无损地传递给大型语言模型（LLM），由其自主决定如何使用这些信息，可能是一个更好的选择。Q-Former的主要动机是减少图像标记的长度，试图通过压缩来简化模型。然而，Q-Former的训练具有一定的挑战性，因为它引入了大量的参数，而在样本量有限的情况下，这些参数难以有效收敛。

另外，Q-Former模型的参数量超过100百万，这样庞大的参数集使得模型在有限的数据量下难以实现有效训练。那么，如果假设数据量充足，Q-Former的性能上限是否可能超越MLP呢？事实上，即便是性能强劲的Qwen-VL模型，在经过大量数据训练后，也未能显著超越LLaVA-1.5的性能表现。这表明即便我们继续沿着BLIP的研究方向前进，也可能会面临一定的困难。