MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

515 篇文章 3 订阅

已下架不支持订阅

61 篇文章 0 订阅
本文深入研究了多模态大型语言模型(MLLMs)的构建,通过全面的消融实验揭示了架构组件和数据选择的重要性。MM1,一个包含30B参数的模型家族,通过大规模预训练在多项基准测试中表现出色,展现出强大的上下文学习和多图像推理能力。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的翻译。

摘要

在这项工作中,我们讨论了建立高性能的多模态大型语言模型(MLLMs)。特别是,我们研究了各种体系结构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器和各种预训练数据选择的仔细而全面的消融,我们确定了几个关键的设计教训。例如,我们证明,与其他已发表的预训练结果相比,对于使用图像字幕、交错图像文本和纯文本数据的仔细混合的大规模多模态预训练,在多个基准上实现最先进的(SOTA)小样本结果是至关重要的。此外,我们还表明,图像编码器以及图像分辨率和图像token计数具有实质性影响,而视觉语言连接器设计的重要性相对可以忽略不计。通过放大所提出的配方,我们构建了MM1,这是一个高达30B参数的多模态模型家族,由密集模型和专家混合(MoE)变体组成,在预训练指标中是SOTA,并在对一系列已建立的多模态基准进行监督微调后实现竞争性能。得益于大规模的预训练,MM1具有增强的上下文学习和多图像推理等吸引人的特性,能够实现少样本的思维链提示。

1 引言

2 相关工作

3 构造MM1的配方

4 最终的模型和训练的配方

5 监督微调

6 结论

我们研究如何构建高性能MLLM。通过仔细地消融建模和数据选择,我们

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值