【MLLM阅读笔记-11】EAGLE精读,英伟达探索MLLM的视觉编码器混合:Exploring The Design Space for Multimodal LLMs with Mixture o

在这里插入图片描述
在这里插入图片描述

论文:
《EAGLE: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders》
Github:
https://github.com/NVlabs/Eagle

keypoints

实验很多。对MLLM的视觉编码器的融合的一次对比。
包括主要的不同任务的ViT的对比,不同融合策略的对比,不同模型组合的对比。
验证了MLLM训练时把ViT放开很重要(之前很多工作都是冻结的)。
针对多ViT组合的模型,搞了一个"预对齐",用一个冻结的LLM把不同的ViT训到一个文本空间。

精读

1. background&motivation

最近的MLLM工作表明:增强视觉感知能力能显著降低幻觉,并提高许多 MLLM 使用视觉编码器的混合来实现这一目标。尽管取得了一定成功,但缺乏系统比较和详细的消融研究来解决关键方面,例如专家模型的选择多个视觉专家(vision experts)的集成

本研究利用多种视觉编码器和分辨率的混合,对MLLM的设计空间进行了广泛的探索。揭示了各种现有策略共有的几个基本原则,从而产生了一种精简但有效的设计方法: 简单地从一组互补的视觉编码器中连接视觉标记与更复杂的混合架构或策略一样有效。还引入了预对齐(Pre-Alignment),以弥合以视觉为中心的编码器(vision-focused encoders)和语言的tokens之间的差距,增强模型一致性。
在主要的MLLM基准测试中超过了其他领先的开源模型。

贡献,主要是一些新发现:
1. MLLM训练中解锁视觉编码器很重要,之前的工作大都是冻结这部分的;
2. 最近提出的一些融合策略并未显示出显著的优势,相反,直接的通道连接提供了最佳的效率和性能。
3. 引入额外的视觉专家带来了持续的增益,当视觉编码器被解锁时,这种改进尤为显著。
4. 提出了一个预对齐阶段,其中没用文本对齐的视觉专家在一起训练之前分别使用冻结的LLM进行微调。在混合视觉编码器设计下,这一阶段显著提高了mlm的性能。

用了和Cambrian-1一样的预训练和微调数据,但取得了更好的性能。

2. related work

刚开始的大部分MLLM因为预训练的ViT的输入或者LLM输出token长度的问题,无法处理高分辨率图像。

最近的研究表明:更强的视觉编码器能显著减轻幻觉,提高OCR能力。两种做法:拉高视觉编码器的预训练的规模和数据的分辨率;以及将图像先分成更小的patch(动态分辨率)。缺陷是这些方法会引入额外的训练资源。

另一种思路就是混合不同任务和输入分辨率的是视觉编码器。“视觉专家混合”模式被证明是有效的。然而,对其设计空间的详细研究仍然缺乏严格的消融。选择哪种视觉编码器组合,如何融合不同的专家,如何在更多视觉编码器的情况下调整训练策略等问题仍有待解决。

3 Design space exploration

本章节要搞清楚几件事:

  1. 如何利用不同视觉编码器的优势;
  2. 如何用简单的策略融合不同的视觉编码器,去除不必要的部分,并支持消融;
  3. 比较不同的融合方式;
  4. 探索如何优化预训练策略
  5. 如何做视觉编码器的模型选型。

3.1 Base setup

用的LLaVA架构:vision encoder+LLM+MLP
预训练数据:LLaVA-1.5同款(595k图文对)
指令微调数据:LLaVA-1.5, Laion-GPT4V [ 1], ShareGPT-4V [ 8 ], DocVQA [61 ], synDog-EN [35], ChartQA [60], DVQA [32], and AI2D,共计934k样本

具体实现:
LLM选择:Vicuna-7B
预训练:epoch:1 batch size:256 lr:1e-3
指令微调:epoch:1 batch size:128 lr:2e-5

3.2 Stronger CLIP encoder

这个实验主要是探索CLIP的最优使用方式。
大部分MLLM都用CLIP做视觉编码器,但是CLIP原本没法做高分辨率任务。针对这个问题,有的工作对高分辨率图像做切分,再分多次输入ViT,有的直接对ViT的输入做scale up。针对这些方案做比较:
在这里插入图片描述
根据表格得到以下结论:

  1. 不冻结CLIP在高分辨率插值方法中带来显著提升,在分辨率不变时也不带来下降;
  2. 冻结CLIP在高分辨率任务中会有明显的性能下降;
  3. 不冻结CLIP,直接插值到448*448在开销和性能上都有明显提升;
  4. 最好的CLIP能用小很多的模型(300M)达到InternVL(6B)的效果。(Intern团队:啊对对对对)

作者又提到CLIP-228能直接对标LLaVA-HR和InternVL,因为输入(448*448)输出(1024)大小都是一样的.(Intern团队:你礼貌吗)

3.3 Vision experts

这一实验是对各种视觉编码器按任务场景分类,并测试在MLLM上常用基准的性能:
在这里插入图片描述
每个vision encoder的输出通过双线性插值和pixel shuffle保证输出都是1024tokens。

横向对比各有千秋。ConvNeXt and EVA-02在训练中放开后性能大增。

3.4 Fusion strategy

这一实验是探索不同的融合策略。
现有的融合策略可以分为以下几类:
在这里插入图片描述

  1. Sequence Append:将来自不同backbone的tokens串联成更长的序列,这样处理后的序列长度将是各个序列长度之和;
  2. Channel Concatenation: 视觉标记沿着通道维度进行拼接,而不增加序列的长度。这意味着来自不同源的特征图在同一位置上的通道会被合并成一个更深的特征图;
  3. LLaVA-HR:将高分辨率的特征注入到低分辨率的视觉编码器中,使用混合分辨率适配器(mixture-of-resolution adapter)。这种技术允许模型在处理低分辨率特征的同时,还能利用高分辨率的细节信息。
  4. Mini-Gemini:使用 CLIP 模型生成的标记作为低分辨率查询,与另一个位于相同局部窗口中的高分辨率视觉编码器进行交叉注意力机制(cross-attention)。这种方法使得模型能够在不同分辨率下共享信息,同时保持局部性。
  5. Deformable Attention:这是在 Mini-Gemini 基础上引入的一个新基线,其中标准的窗口注意力机制被可变形注意力所取代。可变形注意力允许模型关注于更为灵活的位置,而不仅仅是固定窗口内的位置,这提高了模型对不同形状和大小目标的适应能力。

对比如下:
在这里插入图片描述
Channel Concatenation最优。本文选择这种策略继续之后的实验。

3.5 Vison-language Pre-Alignment

3.3表明只在视觉任务上训练的模型不如用视觉-语言数据预训练过的。这可能是由于与LLM集成时存在的表示不一致性。此外,当结合不同的编码器时,这些编码器之间存在差距,给训练过程带来了困难。为了解决这种特征不一致性,提出了一种预对齐训练阶段,该阶段首先将每个单独的视觉编码器与相同的LLM对齐,从而促进视觉与语言能力之间更好的协同作用。
在这里插入图片描述
加上Pre-Alignment后训练分了三步:
在这里插入图片描述

  1. 用每个专家ViT和同一个LLM在SFT数据上训练,这一阶段冻结LLM
  2. 将第一步训好的专家ViT输出的特征拼接在一起,用图文对数据训练MLLM的映射层;
  3. 在SFT数据上训整个模型,所有模型参数都不冻结。

3.6 Extension to multi-experts

本实验要探索增加进来更多的ViT专家模型。采用step-by-step greedy策略。
采用轮循方案,如表6所示。首先以性能最好的两个视觉编码CLIP和ConvNeXt为基础,每次增加一个视觉编码器。在每一轮中,表现最好的视觉编码器组合将被保留到下一轮。
在这里插入图片描述
可见:增加不同ViT确实能提高总体的性能。后面的实验选择表现最好的组合作为最终模型,也就是CLIP, ConvNeXt, SAM, Pix2Struct, and EVA-02。
最终模型架构:
在这里插入图片描述

4.experiment

4.1 Implementation details

LLM:Vicuna-v1.5-7B [15 ], Llama3-8B [ 3 ] and Vicuna-v1.5-13B
vision encoder:两种组合,
EAGLE4:CLIP, ConvNeXt, Pix2Struct,EVA-02
EAGLE5:CLIP, ConvNeXt, Pix2Struct,EVA-02,SAM
SFT数据:
在这里插入图片描述
EAGLE5还用了Cambrian-1相同的训练数据方便对标。

4.2 results

对比MLLM:
在这里插入图片描述
OCR效果提升:
在这里插入图片描述

Cambrian-1 training data:
在这里插入图片描述
基本超了,而且超的挺多。

5. Conclusion

针对多模态大语言模型集成视觉编码器的设计空间进行了深入的分析研究。与以往的研究不同,我们发现了系统的设计选择问题,并发现了一系列有用的技术。我们逐步优化单个视觉编码器的训练配方,找到一种可扩展且高效的融合方法,逐步将不同领域知识的视觉编码器结合起来。结果表明了基本设计空间的重要性。希望本文的工作能为mlm的视觉编码器设计提供新的依据和启示。

  • 11
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值