多模态大模型如何重塑计算机视觉？揭秘MLLM的深层机制_计算机视觉未来发展趋势 vlm llm-CSDN博客

本文链接：https://blog.csdn.net/soaring_casia/article/details/142146159

导读：

笔者将深入探讨多模态大语言模型（Multimodal Large Language Models, MLLM）的概念。这一模型不仅继承了大型语言模型（LLM）强大的推理能力，还融入了多模态信息的处理能力，使其能够轻松驾驭文本、图像等多种类型的数据。©️【深蓝AI】

1. 多模态大语言模型的释义（MLLM）

简而言之，多模态大型语言模型（MLLM）是一种创新的模型，它将大型语言模型（如 GPT-3 或 LLaMA-3）的推理能力与多模态信息的接收、推理和输出能力进行了完美融合。

下图是一个医疗保健领域的多模态人工智能系统的实例，该系统接收两个输入：

●一张医学图像；

●一个文本查询：“该图像中是否存在胸腔积液？”系统随后输出针对给定查询的答案（即预测结果）。

图 1｜将放射图像的Vision编码器和LLM相结合而创建的多模态医疗系统©️【深蓝AI】

■1.1 人工智能中多模态技术的崛起

近年来，人工智能领域经历了重大的变革，这一变革主要由Transformer在语言模型中的兴起所驱动。自谷歌2017年提出这一架构以来，直至今日，其在计算机视觉领域的应用和影响已不再是新鲜话题。

相关的最早示例之一是Vision Transformer（ViT），该技术利用Transformer将图像分割成多个patch，并将这些patch视为独立的视觉标记进行输入表示。

随着LLM的蓬勃发展，一种新型的生成模型——MLLM应运而生。

如下图所示，到了2023年，大多数大型科技公司都至少开发出了一种MLLM。在2024年5月，OpenAI发布的GPT-4o更是成为了当时的头条新闻。

图2｜2022年至2024年期间开发的部分多模态大语言模型（MLLMs）©️【深蓝AI】

MLLMs vs VLMs vs 基础模型：

有些人认为MLLMs才是真正的基础模型。例如，谷歌的Vertex AI就将Claude 3、PaliGemma或Gemini 1.5等多模态大型语言模型视为其基础模型。

另一方面，视觉语言模型（VLMs）作为多模态模型的一个专门类别，专注于整合文本和图像输入并生成文本输出。

而多模态模型与VLMs的主要区别在于：

●多模态模型能够处理更多种类的模态，而VLMs主要局限于处理文本和图像；

●相较于多模态模型，VLMs的推理能力较弱。

■1.2 MLLM结构

如下图所示，MLLM的结构主要分为三个部分：

●模态编码器： 此组件负责将视觉、声音等原始数据格式压缩为更精简的表示形式。一种流行的策略是利用预先训练好的编码器（如CLIP）来校准其他模态，从而避免从头开始训练。

●LLM backbone： 这是MLLM的“大脑”，需要一个语言模型来输出文本回复。编码器接收图像、音频或视频并生成特征，然后由连接器（或模态接口）进行处理。

●模态接口（即连接器）： 它作为编码器和LLM之间的中介或纽带。由于LLM只能解释文本，因此将文本与其他模态有效连接起来至关重要。

图3｜多模态理解：多模态第一阶段的组成部分©️【深蓝AI】

2. 计算机视觉中的MLLM应用

本次笔者不会列举这些模型擅长的各种使用案例，而是选择使用几个GPU，并通过具有挑战性的查询（摒弃了常见的😺和狗🐶示例）对三个顶级MLLM进行了测试。

●GPT-4o： OpenAI于2024年5月发布的最强大的多模态模型。可以通过OpenAI的API视觉功能访问了该模型。

●LLaVA 7b： 该模型集成了视觉编码器和用于通用视觉和语言理解的Vicuna，其性能令人印象深刻，有时甚至与GPT-4不相上下。

●Apple Ferret 7b： 苹果公司开发的开源MLLM。它通过理解和关联实现空间理解，使模型能够识别和描述图像中的任何形状，提供精确的理解，尤其对较小图像区域的理解更为出色。

■2.1 在有遮挡的情况下对物体进行计数

下图展示了这三个模型在接收到一张图片和一个要求它们计算安全帽数量的挑战性提示时的表现。

图4｜Apple Ferret模型是唯一一个能正确识别边界框位置（包括被遮挡的边界框）的模型©️【深蓝AI】

尽管GPT-4o提供了详尽的场景描述，但在定位所需的安全帽时却出现了偏差，给出的部分坐标超出了图像的实际尺寸，这解释了为何只能在画面的右下角看到一个边界框。

开源模型LLaVA在检测任务中未能识别出全部四顶安全帽，遗漏了左侧被遮挡的一顶，并且提供的边界框位置也存在误差。

令人惊喜的是，苹果公司的Ferret模型展现出了出色的检测能力，它成功地识别出了图片上的所有四个物体，包括左侧那个被遮挡的物体！这无疑是一次亮眼的表现。

■2.2 自动驾驶：风险感知与规划

为了更深入地探索这些模型的能力，原作从自动驾驶数据集中挑选了这一特定场景。此外，原作特意提高了任务的复杂性：要求模型从自动驾驶汽车的角度出发，同时评估车辆和行人这两个不同类别的风险（详见下图）。

图5｜要求模型检测物体并评估风险：Apple Ferret的模型比GPT-4o的表现更好©️【深蓝AI】

结果显示，LLaVA的表现相当糟糕：它未能识别出自动驾驶汽车前面的大卡车，从而产生了误判。这不禁让人质疑，在执行具有挑战性的任务时，开源模型真的如此不堪吗？

尽管GPT-4o在提供详细且合理的文本回复方面表现出色，但在准确检测边界框方面却再次显得力不从心。相比之下，Apple的Ferret模型则脱颖而出，成为唯一能以精确的边界框坐标检测到大部分物体的模型，这无疑为其增添了不少光彩。

■2.3 体育分析：物体检测与场景理解

迄今为止，至少有一种模型，即Apple Ferret，在计数和检测物体方面展现出了卓越的性能。现在，让我们将目光投向更具挑战性的领域：体育分析。

在通常情况下，单模态微调架构（如YOLO）在检测足球比赛中的球员时往往表现出色。那么，MLLM是否也能在这个领域展现出同样出色的性能呢？我们拭目以待。

图6｜用本文中的三个MLLM进行测试的足球比赛场景©️【深蓝AI】

问题/提示：作为一个深耕于体育领域，尤其专注于足球的人工智能系统，你将被赋予一个足球比赛的场景。你的任务包括：

对该场景进行详细描述；
精确计算每支球队的球员人数；
提供足球以及守门员的边框坐标；
评估进球的可能性，并预测哪支球队更有可能进球。

然而，如下图所示，在检测球员和足球的任务上，依赖的三个模型均遭遇了失败！它们无一能够准确识别出两支球队及其球员。

图7｜用本文中的三个MLLM进行测试的足球比赛场景©️【深蓝AI】

总体而言，MLLM的平均性能表现不俗，但显然，在面对更为复杂的计算机视觉任务时，它们仍有一定的提升空间。

3. 顶级多模态大语言模型概览

以下是一些在计算机视觉领域具有重新定义意义的顶级MLLM：

■3.1 GPT-4o（2024，OpenAI）

●输入：文本、图像、音频（测试版）、视频（测试版）

●输出：文本、图像

●简介：GPT-4o，即“GPT-4 Omni”，其中的“Omni”代表其跨文本、视觉和音频模式的多模态功能。它是一个统一的模型，能够理解和生成任何文本、图像、音频和视频输入/输出的组合。

●试用链接：https://chatgpt.com/

●小知识：GPT-4o采用“多模态思维链”方法，先思考如何将问题分解为不同模态的一系列步骤，然后执行这些步骤，最终得出解决方案。

■3.2 Claude 3.5 Sonnet (2024, Anthropic)

●输入：文本、图像

●输出：文本、图像

●简介：Claude 3.5 Sonnet是一款多模态人工智能系统，拥有20万个token的上下文窗口，能够理解和生成文本、图像、音频和其他数据格式。它在多个领域的深入分析、研究、假设生成和任务自动化方面表现出色。

●试用链接：https://claude.ai

●小知识：Anthropic采用了一种名为“递归奖励建模”的技术，即使用Claude的早期版本为模型的输出提供反馈和奖励。

■3.3 LLaVA (2023, University of Wisconsin-Madison)

●输入：文本、图像

●输出：文本

●简介：LLaVA（大型语言和视觉助手）是一个开源的多模态人工智能模型，能够处理和生成文本和视觉数据作为输入和输出。它与GPT-4的聊天能力不相上下，并在科学QA方面创下了新纪录，展示了先进的视觉语言理解能力。

●试用链接：https://llava-vl.github.io

●小知识：LLaVA是通过一种名为“指令调整”的技术进行训练的，其中GPT-4用于生成涉及文本和图像的合成多模态任务。LLaVA从这些由GPT-4生成的不同示例中学习，无需人工直接监督。

■3.4 Gemini 1.5 (2024, Google)

●输入：文本、图像

●输出：文本、图像

●简介：Gemini是谷歌开发的大型语言模型系列，能够理解和操作文本、图像、音频（测试版）和视频（测试版）等多种模式。它于2023年12月首次亮相，有三种优化变体：Gemini Ultra（最大）、Gemini Pro（用于扩展）和Gemini Nano（用于设备任务）。

●试用链接：https://gemini.google.com/

●小知识：Gemini的名字源自希腊神话中代表“双子”的双子座。双子座具有双重属性，既是一个能力超强的语言模型，又能处理和生成图像、音频和视频等多模态数据，这一点非常贴切。

■3.5 Qwen-VL（2024，阿里巴巴云）

●输入：文本、图像

●输出：文本、图像

●简介：Qwen-VL是一个开源的多模态人工智能模型，结合了语言和视觉功能。它是Qwen语言模型的扩展，旨在克服多模态泛化的局限性。最近的升级版本（Qwen-VL-Plus和Qwen-VL-Max）具有改进的图像推理能力、更好的图像和文本细节分析能力，并支持不同长宽比的高分辨率图像。

●试用链接：https://qwenlm.github.io/blog/qwen-vl/

●小知识：Qwen-VL推出后，迅速跃居OpenVLM排行榜榜首，但被其他更强大的机型超越，尤其是GPT-4o。

参考：
[1]https://arxiv.org/abs/2306.13549
[2]https://arxiv.org/pdf/2005.14165
[3]https://research.google/blog/multimodal-medical-ai/
[4]https://multimodal-large-language-models-mllms-transforming-computer-vision-76d3c5dd267f
©️【深蓝AI】

撰文｜Sienna
审核｜Los

深蓝学院在9月份开启了机械臂主题的系列讲座，欢迎查看详情预约⬇️
机械臂公开课入口