【导读】经典的MLLM可以抽象为三个模块,即Modality Encoder、LLM 和连接它们的模态接口Connector。与人类相似,图像/音频等模态编码器是接收和预处理光/声信号的眼睛/耳朵,而LLM就像人类大脑,能够理解和推理处理后的信号。在两者之间,模态接口用于对齐不同的模态。一些MLLM还包括Generator,用于输出非文本模态。本文主要介绍 Modality Encoder
经典MLLM架构
上一篇:多模态大模型(MLLM):架构篇
一、Modality Encoder 简介
多模态编码器将原始信息(如图像或音频)压缩为更紧凑的表示形式。一种常见的方法是使用与其他模态对齐的预训练编码器,而不是从头开始训练。本文主要介绍 Modality Encoder。包括 Visual Encoder、Non-Visual Encoder、Unified Multimodal Encoder。
二、Visual Encoder
**CLIP-VIT:**作为Vision-Language Model最流行的选择,提供了图像-文本的表征对齐,参数量和数据量的 scale 比较好
**SigLip:**逐渐开始流行,源于它的参数量更小,性能更强
**局限性:**当前存在的预训练的ViTs,局限性是输入的是固定的低分辨率(224*224, 336*336)图像,对于OCR、追求图像细节的VQA等任务来说,高分辨率的感知是必要的。
**如何处理高分辨率图像的输入呢?本文将介绍以下三种方案。
**
2.1 方案一:Image Slice-Based
基于图像切片的方案:将输入的高分辨率图像分割成多块,分别进行encoder
**代表模型:**GPT-4V, LLaVA-NeXT, MiniCPM-V 2.0/2.5, LLaVA-UHD, mPLUGDocOwl 1.5, SPHINX, InternLM-XComposer2-4KHD, Monke
下图为 llava-next 方案,采用改方案,对于 OCR 任务指标具有明显提升
2.2 方案二:Dual Branch Encoders
该方案采用两个分支分别进行图像编码,一个分支是hight-resolution image encoder,另一个分支是low-resolution image encoder,代表模型:CogAgent、Mini-Gemini、DeepSeek-VL、LLaVA-HR。
2.3 方案三:VIT-Free
采用linear projection 直接将image patch映射为tokens,摆脱了vit的表示形式,但是该方案训练成本更高,并且会产生较长的视觉tokens,代表模型:Fuyu, OtterHD。
Fuyu模型架构图
三、Non-Visual Encoder
非视觉编码器包括音频编码器、3D编码器等
- Audio:Ahisper、AudioCLIP、HuBERT、BEATs
2. 3D Point:Point-BERT
Paper: https://cdn.openai.com/papers/whisper.pdf
四、Unified Multimodal Encoder
Unified Multimodal Encoder支持对多模态数据的统一编码,如图像、文本、音频、深度、热和惯性测量单元(IMU)数据进行编码。配备强大的编码器,可以响应多种模态的输入。
- **ImageBind:**将所有模态嵌入到图像的联合表示空间中。好的模态对齐表示有助于LLM理解
ImageBind: One Embedding Space To Bind Them All. 2023
- LanguageBind: 将所有模态嵌入语言的联合表示空间。好的模态对齐表示有助于LLM理解
LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment. 2023
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
四、AI大模型商业化落地方案
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。