多模态大模型(MLLM)架构篇：LLM Backbone，零基础入门到精通，收藏这一篇就够了

最新推荐文章于 2025-03-13 10:51:29 发布

原创最新推荐文章于 2025-03-13 10:51:29 发布 · 1.6k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#wireshark #tcp/ip #测试工具

互联网同时被 3 个专栏收录

1405 篇文章

订阅专栏

程序员

1388 篇文章

订阅专栏

网络安全

827 篇文章

订阅专栏

【导读】典型的MLLM可以抽象为三个模块，即预训练的Modality Encoder、预训练的LLM、连接它们的模态接口Connector。本文主要介绍LLM Backbone，它主要负责处理各种模态的特征，进行语义理解、推理和决策。

MLLM架构图

===

多模态大模型系列：

多模态基础（一）：理解多模态

多模态基础（二）：OpenAI经典之作CLIP vs LMM的黎明Flamingo

多模态基础（三）：MLMM 的研究方向

多模态大模型(MLLM)：架构篇

多模态大模型(MLLM): Modality Encoder

一、LLM Backbone 简介

在MLLM中作为大脑的关键模块是大语言模型（LLM），与从头开始训练一个LLM相比，使用预训练的模型更为高效和实用。通过在网络语料库上的大规模预训练，LLMs已经嵌入了丰富的世界知识，并展现出强大的泛化和推理能力。

大语言模型（LLM）发展时间线

LLM的结构主要包含三类：

Encoder-Only (Autoencoding) Models: 仅编码器模型，也称为自动编码模型，是使用掩码语言模型进行预训练的，在此过程中，输入序列中的某些tokens被随机mask，模型的目标是预测被mask的tokens以重建原始句子。代表模型有：BERT _、RoBERTa，_由于MLLM大部分为生成模型，因此在MLLM中该结构模型存在较少
**Decoder-Only (Autoregressive) Models：**仅解码器模型，使用因果语言模型进行预训练，其目标是根据前面的tokens序列预测下一个token。此过程也称为完整语言建模。与仅编码器模型不同，仅解码器模型会mask输入序列，他们迭代地预测下一个token，创建单向上下文。这种类型的模型利用原始架构中的解码器组件，而无需编码器。代表模型有：_GPT、BLOOM、Qwen、LLAMA，_目__前__该__结构为MLLM的主流
Encoder-Decoder (Sequence-to-Sequence)Models :序列到序列模型结合了原始 Transformer 架构的编码器和解码器部分。Sequence-to-sequence模型对于翻译、摘要和问答任务非常有用，代表模型有：T5、BART

_LLM的三种结构示意图
_

另外，对大型语言模型的**混合专家模型（Mixture of Experts，MoE）**的探索引起了越来越多的关注,与Dense模型相比，稀疏架构通过选择性激活参数，可以在不增加计算成本的情况下扩大总参数规模。即在相同计算资源下，训练速度更快，而且可以训练更大的模型。实证上，MoE实现在几乎所有基准测试上都比Dense模型表现更好。代表模型：Mixtral 8x7B

Mixtral 8x7B

后面将主要介绍正常版和迷你版的MLLM使用的LLM backbone。

二、Normal MLLM（正常版）

按照多模态的下游任务统计： vision-to-language、visual grounding and region-level understand、image generation and editing，基于这三类任务使用的LLM进行的统计：其中LLAMA(占比43%)，Vicuna(占比27%)，其他的LLM模型包括：FlanT5、OPT、Qwen(支持中文)、Mixtral-8x7B等。

可以发现LLAMA和 Vicuna 占据了 70%，成为MLLM的主流语言模型。