一文读懂多模态大模型基础架构

写代码的中青年

于 2024-06-25 11:37:20 发布

阅读量578

点赞数 20

分类专栏：大模型文章标签：人工智能 python 大模型多模态大模型 LLM

本文链接：https://blog.csdn.net/qq_43128256/article/details/139954506

版权

大模型专栏收录该内容

50 篇文章 11 订阅

订阅专栏

大模型相关目录

大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步，扬帆起航。

大模型应用向开发路径：AI代理工作流
大模型应用开发实用开源项目汇总
大模型问答项目问答性能评估方法
大模型数据侧总结
大模型token等基本概念及参数和内存的关系
大模型应用开发-华为大模型生态规划
从零开始的LLaMA-Factory的指令增量微调
基于实体抽取-SMC-语义向量的大模型能力评估通用算法（附代码）
基于Langchain-chatchat的向量库构建及检索（附代码）
一文教你成为合格的Prompt工程师
最简明的大模型agent教程
批量使用API调用langchain-chatchat知识库能力
langchin-chatchat部分开发笔记（持续更新）
文心一言、讯飞星火、GPT、通义千问等线上API调用示例
大模型RAG性能提升路径
langchain的基本使用
结合基础模型的大模型多源信息应用开发
COT：大模型的强化利器
多角色大模型问答性能提升策略（附代码）
大模型接入外部在线信息提升应用性能
从零开始的Dify大模型应用开发指南
基于dify开发的多模态大模型应用（附代码）
基于零一万物多模态大模型通过外接数据方案优化图像文字抽取系统
快速接入stable diffusion的文生图能力
多模态大模型通过外接数据方案实现电力智能巡检（设计方案）
大模型prompt实例：知识库信息质量校验模块
基于Dify的LLM-RAG多轮对话需求解决方案（附代码）
Dify大模型开发技巧：约束大模型回答范围
以API形式调用Dify项目应用（附代码）
基于Dify的QA数据集构建（附代码）
Qwen-2-7B和GLM-4-9B：大模型届的比亚迪秦L
文擎毕昇和Dify：大模型开发平台模式对比
Qwen-VL图文多模态大模型微调指南
从零开始的Ollama指南：部署私域大模型
基于Dify的智能分类方案：大模型结合KNN算法（附代码）
OpenCompass：大模型测评工具
一文读懂多模态大模型基础架构

文章目录

多模态大模型架构介绍

多模态大型语言模型（MLLM）像是一位多才多艺的艺术家，既能理解文字，又能看懂图片，甚至还能回答关于图片的问题，为复杂的任务提供解决方案。

多模态编码器：信息的接收者

想象一下，你面前有一张图片和一段文字。MLLM的第一个任务就是理解这两者。多模态编码器就是这个理解过程的起点，它像一个高效的信息接收器，能够同时处理视觉和语言信息。

基本上都是选择CLIP预训练模型。这种方法有助于更好地对齐视觉和文本输入的特征空间。视觉编码器在MLLM参数中所占比例相对较小，因此与语言模型相比，轻量级优化不是刚需。

投影器：模态之间的桥梁

但仅仅接收信息还不够，MLLM需要将这些信息融合在一起。这就是投影器的工作，它像一座桥梁，将视觉信息（比如图片中的内容）映射到文本空间中，让模型能够更好地理解两者之间的关系。

线性投影：这是最基础的方法，通过一些简单的数学运算，将视觉信息转换成模型能理解的格式。
基于注意力的投影：这种方法更高级，它使用一种叫做Q-Former的技术，通过学习一组查询向量来提取图片的特征。
基于CNN的投影：这种方法通过卷积神经网络来提高效率，减少模型的参数数量，加快处理速度。
2D视觉选择性扫描：这是一种创新的方法，通过扫描图片的不同部分来提取信息。
混合架构投影：结合了多种技术，以适应不同的视觉Token数量和维护上下文信息。

视觉Token压缩：细节与效率的平衡

在处理复杂的图像识别任务时，MLLM面临着一个挑战：如何平衡对细节的感知和计算效率。一种方法是通过全局视图压缩图像，同时将图像分割成小块（Patch），以减少计算负担。这种方法允许模型在保持高效率的同时，也能够捕捉到图像的重要细节。

为了让MLLM能够感知细节且实现低分辨率的编码能力，一般会利用全局视图进行图片规模的压缩以及通过拆分衍生局部的图像块(Patch)。LLaVA-UHD提出了一种图像模块化策略，将原生分辨率的图像划分为更小的可变大小切片，以实现高效和可扩展的编码。此外，InternLM-XComposer2-4KHD 引入了一种通过自动布局排列动态调整分辨率的策略，不仅可以保持图像的原始纵横比，还可以自适应地改变Patch布局和计数，从而提高图像信息提取的效率。通过对不同分辨率的图像实施自适应输入策略，可以在感知能力和效率之间实现平衡。如上图所示，说白了就是将原图压缩和切块一起进行编码。Mini-Gemini由两个编码器组成，一个用于高分辨率图像，另一个用于低分辨率视觉嵌入。它提出了patch的信息挖掘，它使用低分辨率的视觉嵌入作为查询，通过交叉注意力从高分辨率候选者那里检索相关的视觉线索。Scaling on Scales表明，多尺度较小模型的学习能力与较大模型相当，并且预训练较小的模型可以在MLLM基准测试上匹配甚至超过较大模型的优势，同时计算效率更高。

多尺度学习：大小模型的协同

最后，MLLM还采用了多尺度学习策略，这意味着模型可以在不同的尺度上学习和理解信息。这种方法不仅可以提高模型的学习能力，还可以在保持计算效率的同时，实现对复杂信息的深入理解。

结语

多模态大型语言模型代表了人工智能领域的一次飞跃。它们通过结合视觉和语言的理解能力，为我们提供了一个全新的视角来看待信息处理。随着技术的不断进步，我们可以期待MLLM在未来的应用中发挥更大的作用，无论是在自动化图像分析、智能助手还是其他领域，它们都将展现出巨大的潜力。

写代码的中青年

关注

20
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
一文读懂多模态大模型基础架构

多模态大型语言模型（MLLM）像是一位多才多艺的艺术家，既能理解文字，又能看懂图片，甚至还能回答关于图片的问题，为复杂的任务提供解决方案。多模态编码器：信息的接收者想象一下，你面前有一张图片和一段文字。MLLM的第一个任务就是理解这两者。多模态编码器就是这个理解过程的起点，它像一个高效的信息接收器，能够同时处理视觉和语言信息。基本上都是选择CLIP预训练模型。这种方法有助于更好地对齐视觉和文本输入的特征空间。视觉编码器在MLLM参数中所占比例相对较小，因此与语言模型相比，轻量级优化不是刚需。
复制链接

扫一扫