VLM（视觉语言模型）综述

原创

已于 2024-08-31 16:53:29 修改 · 1.9w 阅读

241 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理 #多模态 #视觉语言模型 #大语言模型

于 2024-08-30 14:18:08 首次发布

概述

大型语言模型的出现标志着人工智能领域转型的开始，它们在文本信息处理上的能力极大地推动了这一进程。尽管LLMs在文本处理上表现出色，但它们主要限于处理单一模态的数据，即文本。这限制了它们在理解和生成涉及图像和视频等多模态数据方面的能力。自然智能能够处理多种模态的信息，包括书面和口头语言、图像的视觉解释以及视频的理解。为了使人工智能系统具有类似人类的认知功能，它们必须也能够处理多模态数据。

为了克服LLMs的局限性，研究人员开发了视觉-语言模型（VLMs）。这些模型结合了视觉和文本信息，展示了在理解和生成涉及图像和文本的内容方面的卓越能力。

VLM的应用：

图像字幕生成：VLMs可以自动为图像生成描述性文字，这在社交媒体、内容管理和辅助视觉障碍人士方面非常有用。

视觉问答（VQA）：VLMs能够理解自然语言问题并根据图像内容提供答案，这项技术可以用于教育软件、虚拟助手和交互式客户服务系统。

图像检索：通过理解和索引图像内容及其相关文本，VLMs可以用于改进图像搜索技术，提供更准确和相关的搜索结果。

内容创作：VLMs可以根据给定的文本描述生成图像或视频，这对于艺术创作、游戏设计和电影制作等领域具有创新性的影响。

自动翻译和语言学习：VLMs可以帮助翻译多模态内容，例如带有图像说明的文档，同时也能够辅助语言学习应用，提供视觉辅助学习材料。

医疗影像分析：在医疗领域，VLMs可以辅助医生分析医学影像，并结合相关病例报告或临床笔记，以支持诊断过程。

自动驾驶：VLMs可以整合视觉传感器数据和语言指令，帮助自动驾驶系统更好地理解周围环境并做出决策。

文档理解：VLMs可以处理包含混合媒体的文档，如带有图表或图像的科学论文，以提取关键信息和洞见。

增强现实（AR）和虚拟现实（VR）：在AR和VR应用中，VLMs可以提供对用户视觉和语言输入的更深层次理解，从而创造更丰富的交互体验。

社交媒体分析：VLMs可以分析社交媒体上的图像和文本内容，以识别趋势、情感或其他有用的信息。

VLMS的基本架构：

由图像和文本编码器生成嵌入
在图像和文本融合层中进行融合
将融合向量通过LLM生成最终的视觉感知生成文本

VLMs的分类：根据VLM的输入处理和输出生成能力将其分为三个不同的组：

视觉语言理解模型：专门为视觉信息与语言的解释和理解而设计的模型
多模态输入文本生成模型：擅长利用多模态输入（如图像、视频和文本）来生成文本内容
多模态输入多模态输出模型：不仅接受多模态输入，还能产生多模态的输出

拓展阅读：

BERT：一个关键预训练任务是遮蔽语言建模（MLM），它通过预测文本中被随机遮蔽的单词来训练模型，从而提高模型对语言的理解能力。

BEIT：将BERT的预训练概念扩展到图像领域的模型。它通过在大量图像数据上进行预训练，学习图像的特征表示。

视觉语言理解

（Vision-Language Understanding, VLU）的VLMs专注于对视觉信息与语言的解释和理解的结合。
它们设计用来处理涉及图像和文本的复杂查询，例如视觉问答（VQA）和图像字幕生成。
VLU模型通常需要对图像内容有深入的理解，并且能够准确地用语言来描述或回答有关图像的问题。

CLIP

论文：《Learning Transferable Visual Models From Natural Language Supervision》

CLIP是一种神经网络，它通过自然语言指导来理解视觉概念。它能够识别多种基准上的视觉上的类别，展现出"零样本"（zero-shot）能力，即在没有看过特定类别样本的情况下也能识别它们。

通过对比学习的方式进行预训练，它将图像与其对应的文本描述进行对齐，从而学习视觉和语言之间的关联。

优势：对于分类任务，CLIP比一般的微调深度学习视觉模型具有更强的鲁棒性。

挑战：在抽象任务、细粒度分类、泛化和措辞敏感性方面仍存在困难。

CLIP的训练使用了大量成对的图像和文本数据。这些数据对通常包括一个图像及其相关的描述或标题。图像编码器将输入的图像转换成一个固定大小的特征向量，而文本编码器将输入的文本描述转换成另一个固定大小的特征向量。CLIP的核心是对图像和文本特征向量进行对比学习。模型试图将与图像内容相匹配的文本描述的特征向量拉近，同时将不匹配的文本描述的特征向量推远。

零样本学习：一旦模型被训练，它就可以在没有额外训练数据的情况下识别新的图像类别。这是因为模型已经学习了将视觉概念与语言描述联系起来的通用表示。

AlphaCLIP

论文：《Alpha-CLIP: A CLIP Model Focusing on Wherever You Want》

AlphaCLIP 是 CLIP 模型的一个扩展版本，它增加了对图像中特定区域的注意力指示功能。

注意力机制：AlphaCLIP 通过添加一个注意力机制来提高模型对图像中特定区域的聚焦能力。这种机制允许模型识别图像中的关键部分，并相应地调整其处理过程。

alpha channel：AlphaCLIP 的核心特性是它的“alpha channel”，这是一个额外的通道，用于指示图像中哪些区域在特定的视觉-语言任务中更为重要。这个通道可以被视为一个掩码，它将注意力集中在图像的特定部分。

细粒度的图像理解：AlphaCLIP 的这种能力使其在处理需要对图像中特定对象或部分进行识别的任务时更为有效，例如在复杂的场景中识别多个对象。

对CLIP图像编码器实现了微妙的结构修改，以保持CLIP的先验知识。在CLIP图像编码器的ViT结构中，对第一层的图像应用RGB卷积。引入了一个与 RGB Conv 层平行的附加 Alpha Conv 层，这使得 CLIP 图像编码器能够接受额外的 alpha 通道作为输入。alpha 通道输入设置为 [0, 1] 的范围，其中 1 表示前景，0 表示背景。我们将 Alpha Conv 内核权重初始化为零，确保初始 Alpha-CLIP 忽略 alpha 通道作为输入。

GLIP

论文：《Grounded Language-Image Pre-trainin》

通过短语定位（phrase grounding）实现对象级别的对齐，这意味着模型能够将文本中的短语与图像中的具体对象联系起来。

GLIP 将对象检测重新定义为一种视觉-语言任务，通过深度融合（deep fusion）改进表示学习，从而提高模型对图像中对象的识别能力。

GLIP 能够利用语义丰富的数据进行可扩展的预训练，这使得模型能够自动生成定位框（grounding box），并且在零样本/少样本（zero/few-shot）迁移性方面表现出色。

GLIP 在多种视觉-语言任务上表现出色，包括图像字幕生成和下游目标检测任务。它能够与完全监督的动态头部（dynamic head）竞争。

最低0.47元/天解锁文章