多模态大型语言模型是什么？MLLM的基本结构！

原创于 2025-11-12 11:37:44 发布 · 388 阅读

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理 #embedding #设计模式 #大模型学习 #大模型教程

多模态大型语言模型是什么？

多模态大型语言模型(Multimodal Large Language Models,MLLM)的出现是建立在大型语言模型(Large Language Models,LLM)和大型视觉模型(Large Vision Models,LVM)领域不断突破的基础上的。

随着LLM在语言理解和推理能力上的逐步增强，指令微调、上下文学习和思维链工具的应用愈加广泛。

然而，尽管LLM在处理语言任务时表现出色，但在感知和理解图像等视觉信息方面仍然存在明显的短板。

与此同时，LVM在视觉任务(如图像分割和目标检测)上取得了显著进展，通过语言指令已能够引导模型执行这些任务，但推理能力仍有待提升。

MLLM的基本结构

典型的多模态大型语言模型(MLLM)通常由三个主要组件构成:预训练的多态编码器、预训练的LLM(大型语言模型)、以及连接这两者的多模态接口。

多模态编码器负责处理不同模态的输入信号，比如视觉信号(图像编码器)或语音信号(音频编码器)。

LLM则负责对这些经过编码处理的信号进行理解和推理。多模态接口则起到桥梁作用，使得不同模态的信息能够在模型中有效对齐。

此外，一些MLLM还配备了生成器，能够输出文本之外的其他模态内容，如图像或音频。

1.1 模态编码器的功能与选择

模态编码器在MLLM中承担着将原始的多模态信息(如图像或音频)转换为紧凑表示的关键角色。

与从零开始训练编码器相比，常见的做法是采用已经预训练的编码器，尤其是那些在大规模图像-文本对上预训练过的模型。

例如，CLIP的视觉编码器部分就是一个经典的选择，其能够将图像信息有效转化为向量表示，并与文本信息对齐。不同的模型在编码器的选择和优化上各有侧重。

EVA-CLIP编码器

MiniGPT-4采用了EVA-CLIP编码器，这种编码器在性能上优于标准的CLIP，同时所需的训练成本更低。

这主要归功于以下三个改进:

首先，EVA-CLIP通过使用EVA模型的预训练权重来初始化图像编码器，从而提升了起始性能。

其次，使用了LAMB优化器，这种优化器特别适用于大批量训练，能够通过自适应元素级更新和层级学习率来提高训练效率并加速模型的收敛。

最后，采用了FLIP技术，在训练过程中随机遮蔽50%的图像标记，从而大幅度减少了时间复杂度，使得批量大小可以增加一倍而无需额外的内存开销。

此外，EVA模型还通过一种名为MaskImage Modeling的任务在更大数据集上进行了训练，它将遮蔽部分的图像与CLIP模型对应位置的输出进行比对，从而在保持语义学习的同时，也能让模型学习到几何结构。

EVA的这种训练方式证明了其能够有效扩展模型参数至十亿量级，并在广泛的下游任务中展现出色的性能。

基于卷积的ConvNext-L编码器

Osprey选择了基于卷积的ConvNext-L编码器，这种编码器能够利用更高分辨率和多层次特征，特别是在开放词汇分割任务中展现了较高的效率。

Osprey是基于像素级别的任务，如果直接使用ViT模型作为编码器，会受到计算负担的限制，图片大小通常只支持224或336。

而基于CNN的编码器能够在支持高分辨率的同时保持较高的训练效率和推理速度，而不会牺牲性能。

无编码器的架构

Fuyu-8b就是采用了纯解码器转换器，图像块被线性投影到转换器的第一层，绕过了嵌入查找的过程，将普通Transformer解码器视为图像转换器。这样的设计使得Fuyu-8b对灵活输入的分辨率具有强大的适应性。

1.2 模态编码器的优化策略

在选择多模态编码器时，研究人员通常会考虑分辨率、参数规模和预训练语料库等因素。

研究表明，使用更高分辨率的图像输入能够显著提升模型的表现。为了实现这一点，不同的模型采用了多种策略来优化编码器。

直接缩放输入分辨率

Qwen-VL和LLaVA-1.5都通过将图像分割成更小的图像块来提高模型的输入分辨率。

具体而言，LLaVA-1.5使用了CLIPViT-L-336px编码器，并发现高分辨率能够提升模型性能。

为了进一步优化，该模型将图像分割成视觉编码器原本训练时分辨率的小图像块，并分别对其进行编码，然后将这些特征图组合成一个大特征图，最终输入到LLM中。

这种方式不仅保留了高分辨率的细节，还通过降采样图像的特征与合并后的特征图相结合，提供了全局上下文，从而提高了模型对任意分辨率输入的适应性。

CogAgent采取了双编码器机制来处理高分辨率和低分辨率图像。高分辨率特征通过交叉注意力注入到低分辨率分支中，从而在保证效率的同时，增强了模型对高分辨率输入的支持。

在对齐微调的数据集方面，LLaVA-RLHF 通过人类反馈收集了10,000对偏好数据，主要关注模型响应的诚实性和有用性。

RLHF-V收集了5,700条细粒度的人类反馈数据，特别是针对段落级别的幻觉进行纠正。

VLFeedback则利用AI来为模型的响应提供反馈，包含超过380,000对比较数据，这些对比是由GPT-4V根据有用性、忠实度和伦理问题进行评分的。

MLLM的性能评估方法

在多模态大型语言模型(MLLMS)的开发过程中，评估模型性能是确保其应用效果的重要步骤。

与传统的多模态模型评估方法相比，MLLMs的评估具有一些新的特征，主要体现在对模型多功能性的全面评估以及对新兴能力的特别关注。

1.封闭式问题

封闭式问题的评估通常针对特定任务数据集进行，评估设置可以分为零样本设置和微调设置两种。

在零样本设置中，研究者选择涵盖不同任务的数据集，将其分为保留集(held-in)和留出集(held-out)，在前者上进行调整后，在后者上评估模型的零样本性能。

微调设置则常见于特定领域的任务评估，例如LLaVA和LLaMA-Adapter在ScienceQA上的微调表现，LLaVA-Med在生物医学VQA上的性能等。

为了解决这些方法在少数选定任务或数据集上的局限性，研究者们开发了专门为MLLMS设计的新基准。

例如，MME是一个包括14个感知和认知任务的综合评估基准，而MMBench则通过使用ChatGPT将开放式响应与预定义选项进行匹配。

对于视频领域的应用，Video-ChatGPT和Video-Bench 提供了专注于视频任务的专门基准和评估工具。

2.开放式问题

开放式问题的评估更为灵活，通常涉及MLLMS在聊天机器人角色中的表现。

由于开放式问题的回答可以是任意的，评判标准通常分为人工评分、GPT评分和案例研究三类。

人工评分需要人类评估生成的回答，通常通过手工设计的问题来评估特定方面的能力。

例如，mPLUG-0w!收集了一个视觉相关的评估集，用于判断模型在自然图像理解、图表和流程图理解等方面的能力。

GPT评分则探索了使用GPT模型进行自动评分的方法。这种方法通过让GPT-4从不同维度(如有用性和准确性)对模型生成的回答进行评分。

例如，LLaVA的评分方法使用GPT-4对不同模型生成的答案进行比较，并通过COCO验证集中抽样的问题进行评估。

案例研究作为补充评估方法，通过具体案例比较MLLMs的不同能力。研究者们通常选择两个或多个高级商用模型进行对比，分析它们在复杂任务中的表现。

例如，Yang等人对GPT-4V进行了深入分析，涵盖了从基础技能(如描述和物体计数)到需要世界知识和推理的复杂任务(如理解笑话和室内导航)的评估。

能力扩展

能力扩展是MLLMS研究中的一个重要方向。

为了更好地与用户交互，研究者开发了支持更精细粒度控制的模型，从Image演变到Region级别(如Shikra、GPT4R01、Pink)，甚至像素级别(如Osprey、Glamm、Ferret)的输入和输出支持。

例如，Shikra支持用户通过引用图像的特定区域(以边界框表示)进行交互，而Osprey则利用分割模型SAM支持点输入，实现了对单个实体或其部分的精确定位。

此外，MLLMS正在被扩展以支持更多的模态输入和输出。

例如，ImageBind-LLM支持编码图像、文本、音频、深度图、热成像和惯性测量单元(IMU)数据，而Next-gpt和Emu等模型则可以生成多模态响应，如图像、语音和音频。

MLLM的幻觉问题及其缓解方法

在多模态大型语言模型(MLLMS)的生成过程中，幻觉问题(即模型生成的内容与实际输入不符的现象)是一个亟需解决的挑战。

幻觉问题主要包括三种类型:

存在性幻觉(模型错误地声称图片中存在某些对象)、属性幻觉(模型错误描述对象的某种属性)以及关系幻觉(模型错误描述对象之间的关系，如位置或动作)。

这些问题对MLLMs的输出质量和可信度造成了严重影响，因此，研究者们提出了多种缓解幻觉的方法。

幻觉评估方法

传统的评估方法，如BLEU、METEOR、TF-IDF等，主要基于生成内容与参考描述的相似度，但在处理幻觉问题时显得力不从心。

为了更准确地评估幻觉现象，新一类的评估指标应运而生。

CHAlR(Caption Hallucination Assessment with Image Relevance)是一种早期的评估开放式图像描述中幻觉程度的指标，它通过测量句子中包含幻觉对象的比例来判断模型的准确性。

POPE通过构建多个二元选择的提示，询问图像中是否存在特定对象，以评估模型的鲁棒性。

MME则提供了更全面的评估，涵盖了存在性、数量、位置和颜色等方面的幻觉评估。

HaELM 提出了使用纯文本大语言模型(LLMS)作为判断者，自动决定MLLMS生成的描述是否与参考描述相符。

FaithScore 基于将描述性子句分解并单独评估每个子句的准确性，从而以更细粒度的方式评估生成内容。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型，我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

如果你也想通过学大模型技术去帮助就业和转行，可以扫描下方链接👇👇
大模型重磅福利：入门进阶全套104G学习资源包免费分享！

在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述