多模态大模型(MLLM)架构篇：LLM Backbone

最新推荐文章于 2025-04-07 17:09:29 发布

大靠山

最新推荐文章于 2025-04-07 17:09:29 发布

阅读量1.7k

点赞数 10

文章标签：架构数据库 langchain oracle 人工智能 llama

本文链接：https://blog.csdn.net/m0_59235245/article/details/141437198

版权

【导读】典型的MLLM可以抽象为三个模块，即预训练的Modality Encoder、预训练的LLM、连接它们的模态接口Connector。本文主要介绍LLM Backbone，它主要负责处理各种模态的特征，进行语义理解、推理和决策。

一、LLM Backbone 简介

在MLLM中作为大脑的关键模块是大语言模型（LLM），与从头开始训练一个LLM相比，使用预训练的模型更为高效和实用。通过在网络语料库上的大规模预训练，LLMs已经嵌入了丰富的世界知识，并展现出强大的泛化和推理能力。

大语言模型（LLM）发展时间线

LLM的结构主要包含三类：

Encoder-Only (Autoencoding) Models: 仅编码器模型，也称为自动编码模型，是使用掩码语言模型进行预训练的，在此过程中，输入序列中的某些tokens被随机mask，模型的目标是预测被mask的tokens以重建原始句子。代表模型有：BERT _、RoBERTa，_由于MLLM大部分为生成模型，因此在MLLM中该结构模型存在较少
**Decoder-Only (Autoregressive) Models：**仅解码器模型，使用因果语言模型进行预训练，其目标是根据前面的tokens序列预测下一个token。此过程也称为完整语言建模。与仅编码器模型不同，仅解码器模型会mask输入序列，他们迭代地预测下一个token，创建单向上下文。这种类型的模型利用原始架构中的解码器组件，而无需编码器。代表模型有：_GPT、BLOOM、Qwen、LLAMA，_目__前__该__结构为MLLM的主流
Encoder-Decoder (Sequence-to-Sequence)Models :序列到序列模型结合了原始 Transformer 架构的编码器和解码器部分。Sequence-to-sequence模型对于翻译、摘要和问答任务非常有用，代表模型有：T5、BART

_LLM的三种结构示意图
_

另外，对大型语言模型的**混合专家模型（Mixture of Experts，MoE）**的探索引起了越来越多的关注,与Dense模型相比，稀疏架构通过选择性激活参数，可以在不增加计算成本的情况下扩大总参数规模。即在相同计算资源下，训练速度更快，而且可以训练更大的模型。实证上，MoE实现在几乎所有基准测试上都比Dense模型表现更好。代表模型：Mixtral 8x7B

Mixtral 8x7B

后面将主要介绍正常版和迷你版的MLLM使用的LLM backbone。

二、Normal MLLM（正常版）

按照多模态的下游任务统计： vision-to-language、visual grounding and region-level understand、image generation and editing，基于这三类任务使用的LLM进行的统计：其中LLAMA(占比43%)，Vicuna(占比27%)，其他的LLM模型包括：FlanT5、OPT、Qwen(支持中文)、Mixtral-8x7B等。

可以发现LLAMA和 Vicuna 占据了 70%，成为MLLM的主流语言模型。

来源：https://arxiv.org/pdf/2402.12451v1

三、Mini MLLM（迷你版）

高效多模态大语言模型是为了解决高昂的训练和推理成本而衍生出来的，这种轻量级的MLLM能够更方便的在学术界和工业界广泛应用，尤其是边缘计算的场景中。

迷你版的 MLLM使用的 LLM 模型主流参数规模在3B 以内，其中 Phi系列占比47.6%，其他包括 MobileLLaMA、Qwen、Gemma2B等

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述