VLM系列文章7-Molmo and PixMo

近期涌入了大量的MLLM模型,包括Llama-3.2-11B-Vision-InstructQwen2-VLmPLUG-Owl3Ovis1.6-Gemma2-9BInternVL2MiniCPM-V 2.6 等工作。笔者看来,多模态模型可能不仅仅在刷榜上,可能更多的需要解决实际任务。因此,更能衡量模型的好坏的评估数据集,高效的模型架构(精度和速度均衡)可能也是相关从事者需要考虑的问题,毕竟MLLM模型大小一般都是以B为单位的。另外一个方面就是发展速度、开源速度很快,包括数据集、训练代码、部署等,也是一个很好的契机可以follow其他人的工作。

0、TD;LR

Molmo 是最先进的开放式多模态人工智能模型系列。在广泛的学术基准和人类评估中,我们最强大的模型缩小了开放系统与专利系统之间的差距。我们较小的模型性能优于其 10 倍大小的模型。

  • 论文地址: https://arxiv.org/pdf/2409.17146
  • 代码: 暂无
  • 博客地址: https://molmo.allenai.org/blog
  • 数据集地址:https://docs.google.com/forms/d/e/1FAIpQLSdML1MhNNBDsCHpgWG65Oydg2SjZzVasyqlP08nBrWjZp_c7A/viewform
  • 模型地址:https://huggingface.co/allenai
  • 作者:Allen Institute for AI、University of Washington
  • 发布时间:20240924

1、简单介绍

虽然目前的多模态模型可以解释多模态数据并用自然语言进行表达,但其全部潜力仍有待开发。Molmo 则更进一步。通过学习指向它所感知到的东西,Molmo 能够与物理和虚拟世界进行丰富的交互,为下一代能够与环境进行互动的应用程序提供支持。

现在感觉,评估已给模型的好坏不仅仅是公开数据集上效果,人类偏好的最后结果也是非常重要的,因为公开数据集刷榜可能会很容易,但是真实情况还是得符合人类的偏好.

在这里插入图片描述

2 模型架构

在这里插入图片描述
模型架构遵循将语言模型与图像编码器相结合的简单标准设计。它由四个组件组成:

  • 预处理器,将输入图像转换为一组多尺度、多裁剪图像;
  • ViT 图像编码器,将每个图像独立映射到一组视觉标记;
  • 连接器,使用 MLP 将视觉标记投影到语言模型的输入维度,然后池化视觉标记以减少其数量;
  • 仅解码器的 Transformer LLM。

1、对于视觉编码器,我们发布的所有模型都使用 OpenAI 的 ViT-L/14 336px CLIP 模型,该模型始终提供良好的结果
2、对于 LLM,我们在不同的规模和开放程度下对各种选择进行了模型训练,包括:完全开放权重和数据 OLMo-7B-1024(使用 2024 年 10 月预发布的权重,稍后将公开)、高效的完全开放权重和数据 OLMoE-1B-7B-0924、开放权重 Qwen2 7B、开放权重 Qwen2 72B、开放权重 Mistral 7B、开放权重 Gemma2 9B 和 Phi 3 Medium)。

从独立预训练的视觉编码器和 LLM 开始,我们的训练过程很简单,包括两个阶段:
(1) 使用我们新收集的字幕数据进行字幕生成的多模态预训练;
(2) 使用我们上面描述的数据集混合进行监督微调。所有模型参数都在两个阶段更新。

我们不使用 RLHF

3 数据集 (PixMo:数据质量胜过数量)

在这里插入图片描述

1·、大型 VLM 通常是在来自网络的数十亿个图像文本对上进行训练的。如此庞大的语料库往往非常嘈杂,需要模型在训练过程中将信号与噪声分开。
2、嘈杂的文本还会导致模型输出出现幻觉。我们采用截然不同的方法来获取数据,高度重视数据质量,并且能够使用不到 1M 个图像文本对来训练强大的模型,这比许多竞争方法的数据量少了 3 个数量级。

Molmo 系列模型成功的最关键因素是 Molmo 的训练数据 PixMo。Pixmo 包括两大类数据:
(1) 用于多模式预训练的密集字幕数据和
(2) 用于实现各种用户交互的监督微调数据,包括问答、文档阅读和指向等行为。我们收集这些数据的主要限制是避免使用现有的 VLM,因为我们希望从头开始构建高性能 VLM,而不是通过提炼现有系统(请注意,我们确实使用了仅限语言的 LLM,但我们从不将图像传递给这些模型)。

4 评估

随着新的学术基准不断涌现,视觉语言模型评估正在迅速发展。这些基准非常适合评估特定技能,但要想在这些基准上取得好成绩,通常需要以基准特定的风格回答问题。这些答案通常很短,在其他情况下效果不佳。因此,学术基准只能提供模型性能的部分信息。为了补充这些基准,我们还进行了人工评估,使我们能够根据用户偏好对模型进行排名。

在这里插入图片描述

5. 结果

我们重点介绍几个关键结果:

  • 我们最有效的 Molmo 模型 MolmoE-1B 基于我们完全开放的 OLMoE-1B-7B 专家混合 LLM,在学术基准和人工评估上的性能几乎与 GPT-4V 相匹配。
  • 我们的两个 Molmo-7B 模型在学术基准和人工评估上均在 GPT-4V 和 GPT-4o 之间表现优异,并且在两个基准上都明显优于最近发布的 Pixtral 12B 模型。
  • 我们一流的 Molmo 模型 Molmo-72B 获得了最高的学术基准分数,在人工评估中排名第二,略低于 GPT-4o。
  • 我们最好的 Molmo 模型也优于几种最先进的专有系统,包括 Gemini 1.5 Pro 和 Flash 以及 Claude 3.5 Sonnet。

在这里插入图片描述

6 开源情况

在这里插入图片描述

7 展望

虽然目前看下来效果比较好,但是可能还是需要再内部数据集上进行评估,同时模型推理速度如何,后期的生态如何,是否有较好地生态支持推理都是需要再看看的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值