SPHINX: THE JOINT MIXING OF WEIGHTS, TASKS,AND VISUAL EMBEDDINGS FOR MULTI-MODAL LARGELANGUAGE MODEL

发表时间:13 Nov 2023

论文链接:https://arxiv.org/pdf/2311.07575

作者单位:Shanghai AI Laboratory

Motivation:We present SPHINX, a versatile multi-modal large language model (MLLM) with a joint mixing of model weights, tuning tasks, and visual embeddings.

解决方法

  1. 多数据:首先,对于更强的视觉语言对齐,我们在预训练期间解冻大型语言模型 (LLM),并在现实世界和合成数据训练的 LLM 之间引入权重混合策略。通过直接整合两个域的权重,混合LLM可以有效地结合不同的语义,具有良好的鲁棒性。

  2. 多任务:然后,为了实现多功能能力,我们混合了各种任务进行联合视觉指令调整,并设计了特定于任务的指令,以避免任务间冲突。除了基本的视觉问答之外,我们还包括更具挑战性的任务,例如区域级理解、标题接地、文档布局检测和人体姿态估计,有助于跨不同场景的相互增强。

  3. 多架构:此外,我们建议从各种网络架构、预训练范式和信息粒度中提取全面的视觉embedding,为语言模型提供更稳健的图像表示。

实现方式:In this paper, we propose a versatile MLLM, SPHINX, with a mixing of four significant aspects: model weights, tuning tasks, visual embeddings, and high-resolution sub-images.

Unfreezing LLMs for pre-training:通过对视觉语言数据的进一步预训练,更好地进行跨模态对齐的潜力。因此,我们解冻整个 LLM,并结合视觉语言数据集 进行跨模态对齐,并使用 RefinedWeb 进行特定于语言的调整。

Mixed model weights:考虑到直接混合此类数据可能会混淆 MLLM,我们引入了一种权重混合策略来有效地结合这种特定领域的知识。基于在真实世界数据上预训练的 MLLM,我们在合成数据上微调它,然后将微调后的 LLM 的权重与真实世界的权重线性组合。

Mixed tuning tasks:我们集成了一组不同的视觉指令任务来调整预先训练的模型,目的是获得广泛的能力。

Mixed visual embeddings:为了利用不同的编码器,我们建议混合来自不同视觉主干的语义嵌入和不同的网络架构(CNN vs. ViT)、预训练范式(监督与自我监督)和信息粒度。通过按通道方式和顺序混合不同的图像标记,SPHINX 获得了更强的视觉表示,并导致更好的视觉语言对齐效果。

在此基础上,我们进一步研究了现有 MLLM 中另一个具有挑战性的问题,即输入图像的有限分辨率。目前的224×224(太小了),它严重阻碍了 MLLM 的细粒度视觉理解和推理。然而,简单地对编码器的图像进行上采样会损害预先训练的位置先验,更重要的是,导致昂贵的计算开销(复杂性与自我注意机制中的图像大小呈二次增长)。因此,我们建议赋予SPHINX更长的视觉嵌入序列,混合不同尺度和高分辨率子图像。

Mixed scales and high-resolution sub-images:我们首先将输入的高分辨率图像在空间上划分为多个子图像,并将其下采样到低分辨率图像。然后,我们将所有图像同时输入到混合视觉编码器中,并连接提取的多个token groups来表示整个高分辨率视觉特征。通过混合不同尺度和子图像的视觉嵌入,我们的SPHINX可以从高分辨率和多尺度图像表示中自适应地探索更细粒度的视觉语义,同时保持编码效率。

请注意,由于高分辨率图像的不同子图像在视觉编码器中没有相互交互,因此它们被迫在llm的注意层之间交换信息,这促使llm更彻底、深入地处理视觉条件。通过提出的three-fold混合器以及更长的视觉标记序列,SPHINX 微调 LLM,例如 LLAMA-2,它是一个强大的 MLLM,具有优越的视觉指令跟随能力。我们的模型在各种视觉任务中表现出色,例如,以显着精度和解析它们的关系来检测不同的对象,或者准确解释复杂图中的内容。

实验Pre-training datasets:LAION-400M

Fine-tuning datasets:include instruction following data such as LLaVAand ShareGPT;we leverage datasets like VQAV2nd GQA;we integrate datasets like OKVQA and A-OKVQA 等各种数据集(见原文)

实验以其他多模态大模型进行对比,SPHINX 能更好的完成各类任务,如:SAM-augmented instance segmentation;Region-level understanding;Better visual reasoning with object detection;Improved object detection through hints;Emergent referring pose estimation;Anomaly detection;Multi-level dense captioning

结论:本文introduce a joint mixing of three different aspects: model weights of pre-trained LLMs by real-world and synthetic data, tuning tasks for diverse visual perception and reasoning tasks,and visual embeddings from different types of vision backbones. On top of this, we further devise to endow SPHINX with the capacity to process high-resolution images by mixing different visual scales and sub-images, which exhibits superior fine-grained visual understanding performance.

a wide range of multi-modality evaluation benchmarks.

a strong vision generalist to tackle object detection, region-level captioning, and human pose estimation and so on.

  • 13
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming__chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值