MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

最新推荐文章于 2024-08-16 22:11:32 发布

UnknownBody

最新推荐文章于 2024-08-16 22:11:32 发布

阅读量134

点赞数

分类专栏： Multimodal 文章标签：机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/136840220

版权

LLM 日更同时被 2 个专栏收录

515 篇文章 3 订阅

已下架不支持订阅

61 篇文章 0 订阅

订阅专栏

本文深入研究了多模态大型语言模型（MLLMs）的构建，通过全面的消融实验揭示了架构组件和数据选择的重要性。MM1，一个包含30B参数的模型家族，通过大规模预训练在多项基准测试中表现出色，展现出强大的上下文学习和多图像推理能力。

摘要由CSDN通过智能技术生成

本文是LLM系列文章，针对《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的翻译。

MM1：多模态LLM预训练的方法、分析和见解

摘要
1 引言
2 相关工作
3 构造MM1的配方
4 最终的模型和训练的配方
5 监督微调
6 结论

摘要

在这项工作中，我们讨论了建立高性能的多模态大型语言模型（MLLMs）。特别是，我们研究了各种体系结构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器和各种预训练数据选择的仔细而全面的消融，我们确定了几个关键的设计教训。例如，我们证明，与其他已发表的预训练结果相比，对于使用图像字幕、交错图像文本和纯文本数据的仔细混合的大规模多模态预训练，在多个基准上实现最先进的（SOTA）小样本结果是至关重要的。此外，我们还表明，图像编码器以及图像分辨率和图像token计数具有实质性影响，而视觉语言连接器设计的重要性相对可以忽略不计。通过放大所提出的配方，我们构建了MM1，这是一个高达30B参数的多模态模型家族，由密集模型和专家混合（MoE）变体组成，在预训练指标中是SOTA，并在对一系列已建立的多模态基准进行监督微调后实现竞争性能。得益于大规模的预训练，MM1具有增强的上下文学习和多图像推理等吸引人的特性，能够实现少样本的思维链提示。

1 引言

2 相关工作

3 构造MM1的配方

4 最终的模型和训练的配方

5 监督微调

6 结论

我们研究如何构建高性能MLLM。通过仔细地消融建模和数据选择，我们

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

在这项工作中，我们讨论了建立高性能的多模态大型语言模型（MLLMs）。特别是，我们研究了各种体系结构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器和各种预训练数据选择的仔细而全面的消融，我们确定了几个关键的设计教训。例如，我们证明，与其他已发表的预训练结果相比，对于使用图像字幕、交错图像文本和纯文本数据的仔细混合的大规模多模态预训练，在多个基准上实现最先进的（SOTA）小样本结果是至关重要的。
复制链接

扫一扫

专栏目录

已下架不支持订阅

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。