多模态大模型(MLLM)：Modality Encoder，零基础入门到精通，收藏这一篇就够了

Python_chichi

已于 2024-09-23 17:28:03 修改

阅读量2k

点赞数 22

分类专栏：程序员互联网大模型文章标签： opencv 数据挖掘语音识别

于 2024-09-21 09:17:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Javachichi/article/details/142410949

版权

互联网同时被 3 个专栏收录

1405 篇文章

订阅专栏

1389 篇文章

订阅专栏

358 篇文章

订阅专栏

【导读】经典的MLLM可以抽象为三个模块，即Modality Encoder、LLM 和连接它们的模态接口Connector。与人类相似，图像/音频等模态编码器是接收和预处理光/声信号的眼睛/耳朵，而LLM就像人类大脑，能够理解和推理处理后的信号。在两者之间，模态接口用于对齐不同的模态。一些MLLM还包括Generator，用于输出非文本模态。本文主要介绍 Modality Encoder

经典MLLM架构

上一篇：多模态大模型(MLLM)：架构篇

一、Modality Encoder 简介

多模态编码器将原始信息（如图像或音频）压缩为更紧凑的表示形式。一种常见的方法是使用与其他模态对齐的预训练编码器，而不是从头开始训练。本文主要介绍 Modality Encoder。包括 Visual Encoder、Non-Visual Encoder、Unified Multimodal Encoder。

二、Visual Encoder

**CLIP-VIT：**作为Vision-Language Model最流行的选择，提供了图像-文本的表征对齐，参数量和数据量的 scale 比较好

**SigLip：**逐渐开始流行，源于它的参数量更小，性能更强

**局限性：**当前存在的预训练的ViTs，局限性是输入的是固定的低分辨率(224*224, 336*336)图像，对于OCR、追求图像细节的VQA等任务来说，高分辨率的感知是必要的。

如何处理高分辨率图像的输入呢？本文将介绍以下三种方案。

2.1 方案一：Image Slice-Based

基于图像切片的方案：将输入的高分辨率图像分割成多块，分别进行encoder

**代表模型：**GPT-4V, LLaVA-NeXT, MiniCPM-V 2.0/2.5, LLaVA-UHD, mPLUGDocOwl 1.5, SPHINX, InternLM-XComposer2-4KHD, Monke

下图为 llava-next 方案，采用改方案，对于 OCR 任务指标具有明显提升

2.2 方案二：Dual Branch Encoders

该方案采用两个分支分别进行图像编码，一个分支是hight-resolution image encoder，另一个分支是low-resolution image encoder，代表模型：CogAgent、Mini-Gemini、DeepSeek-VL、LLaVA-HR。

2.3 方案三：VIT-Free

采用linear projection 直接将image patch映射为tokens，摆脱了vit的表示形式，但是该方案训练成本更高，并且会产生较长的视觉tokens，代表模型：Fuyu, OtterHD。

Fuyu模型架构图

三、Non-Visual Encoder

非视觉编码器包括音频编码器、3D编码器等

Audio：Ahisper、AudioCLIP、HuBERT、BEATs

2. 3D Point：Point-BERT

Paper: https://cdn.openai.com/papers/whisper.pdf

四、Unified Multimodal Encoder

Unified Multimodal Encoder支持对多模态数据的统一编码，如图像、文本、音频、深度、热和惯性测量单元（IMU）数据进行编码。配备强大的编码器，可以响应多种模态的输入。

**ImageBind：**将所有模态嵌入到图像的联合表示空间中。好的模态对齐表示有助于LLM理解

ImageBind: One Embedding Space To Bind Them All. 2023

LanguageBind: 将所有模态嵌入语言的联合表示空间。好的模态对齐表示有助于LLM理解

LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment. 2023

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

四、AI大模型商业化落地方案

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。