VLM系列文章7-Molmo and PixMo

alxe_made

于 2024-09-27 11:21:51 发布

阅读量988

点赞数 28

分类专栏： VLM 文章标签： Molmo PixMo MLLM

本文链接：https://blog.csdn.net/alxe_made/article/details/142587614

版权

VLM 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

近期涌入了大量的MLLM模型，包括Llama-3.2-11B-Vision-Instruct、Qwen2-VL、mPLUG-Owl3、Ovis1.6-Gemma2-9B、InternVL2、MiniCPM-V 2.6 等工作。笔者看来，多模态模型可能不仅仅在刷榜上，可能更多的需要解决实际任务。因此，更能衡量模型的好坏的评估数据集，高效的模型架构（精度和速度均衡）可能也是相关从事者需要考虑的问题，毕竟MLLM模型大小一般都是以B为单位的。另外一个方面就是发展速度、开源速度很快，包括数据集、训练代码、部署等，也是一个很好的契机可以follow其他人的工作。

0、TD;LR

Molmo 是最先进的开放式多模态人工智能模型系列。在广泛的学术基准和人类评估中，我们最强大的模型缩小了开放系统与专利系统之间的差距。我们较小的模型性能优于其 10 倍大小的模型。

论文地址: https://arxiv.org/pdf/2409.17146
代码: 暂无
博客地址: https://molmo.allenai.org/blog
数据集地址:https://docs.google.com/forms/d/e/1FAIpQLSdML1MhNNBDsCHpgWG65Oydg2SjZzVasyqlP08nBrWjZp_c7A/viewform
模型地址:https://huggingface.co/allenai
作者：Allen Institute for AI、University of Washington
发布时间：20240924

1、简单介绍

虽然目前的多模态模型可以解释多模态数据并用自然语言进行表达，但其全部潜力仍有待开发。Molmo 则更进一步。通过学习指向它所感知到的东西，Molmo 能够与物理和虚拟世界进行丰富的交互，为下一代能够与环境进行互动的应用程序提供支持。

现在感觉,评估已给模型的好坏不仅仅是公开数据集上效果,人类偏好的最后结果也是非常重要的,因为公开数据集刷榜可能会很容易,但是真实情况还是得符合人类的偏好.

在这里插入图片描述

2 模型架构

在这里插入图片描述
模型架构遵循将语言模型与图像编码器相结合的简单标准设计。它由四个组件组成：

预处理器，将输入图像转换为一组多尺度、多裁剪图像；
ViT 图像编码器，将每个图像独立映射到一组视觉标记；
连接器，使用 MLP 将视觉标记投影到语言模型的输入维度，然后池化视觉标记以减少其数量；
仅解码器的 Transformer LLM。

1、对于视觉编码器，我们发布的所有模型都使用 OpenAI 的 ViT-L/14 336px CLIP 模型，该模型始终提供良好的结果
2、对于 LLM，我们在不同的规模和开放程度下对各种选择进行了模型训练，包括：完全开放权重和数据 OLMo-7B-1024（使用 2024 年 10 月预发布的权重，稍后将公开）、高效的完全开放权重和数据 OLMoE-1B-7B-0924、开放权重 Qwen2 7B、开放权重 Qwen2 72B、开放权重 Mistral 7B、开放权重 Gemma2 9B 和 Phi 3 Medium）。

从独立预训练的视觉编码器和 LLM 开始，我们的训练过程很简单，包括两个阶段：
(1) 使用我们新收集的字幕数据进行字幕生成的多模态预训练；
(2) 使用我们上面描述的数据集混合进行监督微调。所有模型参数都在两个阶段更新。

我们不使用 RLHF。

3 数据集（PixMo：数据质量胜过数量）

在这里插入图片描述

1·、大型 VLM 通常是在来自网络的数十亿个图像文本对上进行训练的。如此庞大的语料库往往非常嘈杂，需要模型在训练过程中将信号与噪声分开。
2、嘈杂的文本还会导致模型输出出现幻觉。我们采用截然不同的方法来获取数据，高度重视数据质量，并且能够使用不到 1M 个图像文本对来训练强大的模型，这比许多竞争方法的数据量少了 3 个数量级。

Molmo 系列模型成功的最关键因素是 Molmo 的训练数据 PixMo。Pixmo 包括两大类数据：
(1) 用于多模式预训练的密集字幕数据和
(2) 用于实现各种用户交互的监督微调数据，包括问答、文档阅读和指向等行为。我们收集这些数据的主要限制是避免使用现有的 VLM，因为我们希望从头开始构建高性能 VLM，而不是通过提炼现有系统（请注意，我们确实使用了仅限语言的 LLM，但我们从不将图像传递给这些模型）。

4 评估

随着新的学术基准不断涌现，视觉语言模型评估正在迅速发展。这些基准非常适合评估特定技能，但要想在这些基准上取得好成绩，通常需要以基准特定的风格回答问题。这些答案通常很短，在其他情况下效果不佳。因此，学术基准只能提供模型性能的部分信息。为了补充这些基准，我们还进行了人工评估，使我们能够根据用户偏好对模型进行排名。

在这里插入图片描述

5. 结果

我们重点介绍几个关键结果：

我们最有效的 Molmo 模型 MolmoE-1B 基于我们完全开放的 OLMoE-1B-7B 专家混合 LLM，在学术基准和人工评估上的性能几乎与 GPT-4V 相匹配。
我们的两个 Molmo-7B 模型在学术基准和人工评估上均在 GPT-4V 和 GPT-4o 之间表现优异，并且在两个基准上都明显优于最近发布的 Pixtral 12B 模型。
我们一流的 Molmo 模型 Molmo-72B 获得了最高的学术基准分数，在人工评估中排名第二，略低于 GPT-4o。
我们最好的 Molmo 模型也优于几种最先进的专有系统，包括 Gemini 1.5 Pro 和 Flash 以及 Claude 3.5 Sonnet。

在这里插入图片描述