多模态在LLMs中的作用：7个必须了解的多模态LLMs的强大功能

图灵AI云

已于 2024-08-29 10:22:17 修改

阅读量968

点赞数 28

文章标签：人工智能多模态语言模型 LLM LLM原理大模型关键特性 llama

于 2024-08-07 12:30:43 首次发布

本文链接：https://blog.csdn.net/qianggezhishen/article/details/140988578

版权

在当今数字化时代，数据的重要性不断攀升，使得人工智能（AI）工具的多模态能力成为现代企业不可或缺的一部分。据预测，到2031年，多模态AI市场的规模有望实现36.2%的增长。这无疑凸显了其在数字世界中的核心地位。

在本文中，我们将深入探讨大型语言模型（LLMs）的多模态特性，分析这一特性如何深刻影响着企业运营。同时，我们也会审视市场上领先的多模态LLMs，了解它们是如何处理和应对各种类型的数据输入，以及它们在这一领域的具体应用和作用。

什么是多模态AI？

在人工智能（AI）的领域内，模态是指能够被AI模型所处理和理解的数据的特定类型或形态。

AI的通常所见的多模态数据来源

以下是一些常见的数据模态：

文本：涵盖所有类型的书面语言，包括文章、书籍、社交媒体帖子以及其他形式的文本数据。
图像：包含视觉数据，如照片、图画，以及所有其他数字格式的视觉表现。
音频：囊括声音数据，包括语音、音乐和各种环境声音。
视频：指结合了图像序列（帧）和音频的内容，例如电影、教育视频和监控录像。
其他模态：还可能包括传感器数据、3D模型，甚至是与触觉相关的触觉反馈技术。

多模态AI模型的设计理念是融合这些不同模态的信息，使其能够完成更为复杂的任务，这些任务往往超出了单一模态模型的处理能力。

多模态LLMs的技术基础

多模态LLMs涉及各种先进的方法和架构。它们设计用于处理来自不同模态的数据，如文本、图像、音频和视频。让我们看看实现多模态LLMs的主要组成部分和技术。

核心组件

视觉编码器

设计用于处理视觉数据（如图像或视频），视觉编码器将其转换为数值形式的嵌入表示。这种嵌入能够捕捉视觉输入的关键特征和模式，从而使模型能够将视觉信息与其它模态（例如文本）进行整合和解释。

典型视频的编码-解码过程

视觉编码器的工作流程包括以下几个步骤：

输入处理：
- 视觉编码器接收图像或视频输入，进行处理以提取关键特征。通常包括调整输入至标准分辨率，确保处理过程的一致性。
特征提取：
- 利用神经网络，如卷积神经网络（CNN）或视觉变换器（ViT），对视觉输入进行深入分析。这些网络在大规模数据集上进行预训练，能够识别多样的对象、纹理和图案。
嵌入生成：
- 经过处理的视觉数据转化为高维向量形式的嵌入，这种紧凑的数值表示形式能够捕捉图像或视频的基本特征。
与文本数据的整合：
- 在多模态大型语言模型（LLMs）中，视觉编码器生成的输出与文本数据相结合。这通常通过将视觉嵌入映射到共享嵌入空间实现，使得它们能够与文本嵌入直接进行比较和融合。
注意力机制的应用：
- 某些模型采用交叉注意力层，使得语言模型在生成文本时能够集中关注视觉嵌入的相关部分。例如，Flamingo模型利用交叉注意力机制来评估视觉和文本嵌入各部分的重要性。

通过这些步骤，视觉编码器不仅增强了模型对视觉信息的理解能力，还促进了不同模态数据间的有效交互，为多模态AI模型的复杂任务处理提供了基础。

文本编码器

典型的文本编码器-解码器负责生成一连串的单词

文本编码器的运作原理与视觉编码器相似，它们的主要区别在于处理的数据类型。不同于视觉编码器处理视觉数据，文本编码器专门处理并转换文本数据成数值形式的嵌入。

每个嵌入都捕获了文本的关键特征和语义信息，使其能够与图像或音频等其他模态的数据进行整合。

共享嵌入空间

共享嵌入空间是一个统一的数值表示环境，不同模态的数据——比如文本和图像——都被映射到这个空间中。这个空间使得不同数据类型的嵌入能够直接进行比较和组合，从而促进了需要同时理解和整合多种模态的任务。

双语数据的共享嵌入空间示例

共享嵌入空间的运作流程包括以下几个步骤：

独立模态编码器：
- 每种模态（如文本、图像）都配备有各自的编码器，负责将输入数据转换成嵌入。例如，视觉编码器分析图像生成图像嵌入，而文本编码器则处理文本生成文本嵌入。
投影到共享空间：
- 各个模态编码器生成的嵌入随后被映射到共享嵌入空间。这一过程通常通过使用投影矩阵来实现，将特定于模态的嵌入映射到一个共同的空间中，以便于进行直接比较。
对比学习：
- 对比学习技术用于在共享空间内对齐嵌入。它通过最大化匹配对（如特定的图像和它的标题）之间的相似度，同时最小化不匹配对之间的相似度，帮助模型学习不同模态间有意义的关联。
应用：
- 经过训练后，共享嵌入空间使得模型能够执行多样的多模态任务。例如，在基于文本的图像检索中，可以将文本查询转化为嵌入，然后模型在共享空间中寻找与之最接近的图像嵌入。

通过这种方式，共享嵌入空间不仅促进了不同模态数据间的有效交互，还为多模态AI模型的复杂任务处理提供了强有力的支持。

训练方法

对比学习

这是一种自监督学习技术，它使模型能够通过增加正样本对（如匹配的图像-文本对）之间的相似度，同时减少负样本对（不匹配的对）之间的相似度，来识别和区分数据点之间的相似性。

对比学习的视觉表示

这种方法尤其适合于训练模型以理解不同模态之间的联系，例如文本与图像之间的关系。

它的工作原理包括以下步骤：

数据准备：
- 为模型提供一组N个数据点对，这些通常包括正样本对（如一张图片和它的标题）和负样本对（不相关的图片和标题）。
嵌入生成：
- 模型为这组数据点中的每一个生成嵌入。在处理文本和图像数据时，模型会分别生成文本嵌入和图像嵌入。
相似度计算：
- 使用相似度度量方法（例如余弦相似度）来计算每对嵌入之间的相似度，从而为N对数据生成N^2个相似度分数。
对比目标：
- 训练的目标是通过优化对比损失函数，增加正确配对的相似度分数，并减少错误配对的相似度分数，以此来强化模型区分匹配和不匹配数据对的能力。

通过这种方式，对比学习有助于模型学习如何从不同模态中提取和关联信息，从而在多模态任务中表现得更为出色。

感知器重采样器

感知器重采样器是多模态大型语言模型（LLMs）中的一个关键组件，它专门用来处理视觉输入的可变性，将其转换成适合语言模型处理的固定长度格式。这对于处理不同尺寸和特征维度的图像和视频尤为重要。

它的工作原理包括以下几个步骤：

可变长度输入处理：
- 视觉输入如图像和视频在经过编码后，可能产生不同数量的特征嵌入。不同图像的特征数量可能因其尺寸而异，而视频的长度差异则可能导致帧数不同。
转换为固定长度：
- 感知器重采样器接收这些变化的嵌入，并将它们转换成固定数量的视觉标记。这一转换确保了嵌入数据能够适应语言模型的结构，满足模型对输入长度的一致性要求。
训练：
- 在模型训练过程中，感知器重采样器会与其他组件一起进行训练。例如，在Flamingo模型中，感知器重采样器的训练目的是将视觉编码器输出的可变长度嵌入，转换成统一的64个视觉标记的输出，以供后续的语言模型处理。

通过这种方式，感知器重采样器不仅提高了模型对视觉数据的处理能力，还增强了多模态LLMs整合不同模态数据的灵活性和效率。

交叉注意力机制

这些是神经网络中应用的特殊注意力层，它们用于对齐和整合来自不同来源或模态的信息，比如文本和图像。在多模态大型语言模型（LLMs）中，这些机制发挥着至关重要的作用，它们有效地结合了视觉和文本数据，以生成连贯且与上下文紧密相关的输出。

交叉注意力机制的工作原理如下：

输入表示：
- 该机制处理两组输入嵌入：一组源自主要模态（如文本），另一组源自次要模态（如图像）。
查询、键和值矩阵：
- 在交叉注意力框架中，“查询”矩阵一般源自主要模态（文本），而“键”和“值”矩阵则来自次要模态（图像）。这样的布局使得模型能够依据文本提供的上下文信息，关注图像中相关的部分。
注意力计算：
- 交叉注意力机制通过计算查询矩阵与键矩阵之间的注意力分数，利用这些分数对值矩阵进行权重分配。这一过程产生了一个与主要模态对齐的、对上下文敏感的次要模态表示。
整合：
- 加权后的值矩阵与主要模态的嵌入进行整合，使模型能够产生同时融合两种模态信息的输出。

通过这些核心组件和训练方法的结合，确保了大型语言模型在处理多模态任务时的有效性和灵活性。

关键多模态LLMs及其架构

让我们看看一些领先的多模态LLMs及其架构。

GPT-4o

由OpenAI设计的GPT-4o 是一款功能强大的多模态大型语言模型（LLM），它能够处理文本、音频和图像等多种数据类型。GPT-4o的设计代表了一种创新的转变，它能够将以往需要多个模型串行执行的任务统一处理，从而显著降低了处理延迟并增强了推理能力。

这种整合方法意味着GPT-4o能够更加高效地执行任务，它的音频推理速度极快，仅需320毫秒，与人的响应时间相媲美，非常适合需要快速音频处理的实时应用场景。

此外，GPT-4o在成本效益上也具有显著优势，它的使用成本比GPT-4 Turbo低50%，但在文本任务上却能保持相同的高性能水平。这一特点使得GPT-4o成为开发者和企业在寻求部署高效人工智能解决方案时的一个极具吸引力的选择。它不仅能够提供强大的功能，还能在成本控制上给予企业更多的灵活性。

架构

GPT-4o的架构是一个集成了多项创新技术的杰作，专为有效处理多模态数据而设计：

改进的标记化：这一特性使得模型能够采用更高级的标记化策略，从而更有效地处理和整合各种类型的数据。这种方法不仅提升了数据处理的准确性，同时也增强了模型的整体性能。
训练和改进：GPT-4o经历了严格的训练和改进流程，其中包括利用人类反馈进行的强化学习（RLHF）。这种训练方式确保了模型的输出不仅与人类的偏好相符，而且能够在各种环境中安全地部署。

通过这些创新，GPT-4o成功地将文本、音频和图像处理功能整合到了一个统一而高效的模型之中。它的关键作用在于推进了多模态LLMs的能力，使其在多种应用场景中都能发挥出色的性能，无论是实时音频处理、视觉问题回答还是图像字幕生成等任务，GPT-4o都能作为一个多功能的工具来使用。

CLIP (Contrastive Language-Image Pre-training)

由Open AI开发的CLIPCLIP是由OpenAI开发的开创性多模态模型，通过在大量图像-文本对数据集上训练，弥合了文本和图像之间的差距。由于其能够为两种模态创建共享嵌入空间，CLIP成为包括Flamingo和LLaVA在内的许多高级多模态系统的基础模型。

架构

CLIP由两个主要组件组成：图像编码器和文本编码器。图像编码器将图像转换为嵌入（数字列表），文本编码器对文本执行相同的操作。

编码器共同训练，以确保匹配的图像-文本对的嵌入在嵌入空间中接近，而不匹配的对则相距甚远。这是通过对比学习目标实现的。

训练过程

CLIP在4亿图像-文本对的大型数据集上进行训练，这些数据集从各种在线来源收集。训练过程涉及最大化匹配对的嵌入之间的相似度，并使用余弦相似度最小化不匹配对之间的相似度。

这种方法允许CLIP学习一个丰富的多模态嵌入空间，其中图像和文本都可以直接表示和比较。

通过作为其他高级多模态系统的基础模型，CLIP展示了其在推进AI理解和生成多模态内容的能力方面的多功能性和重要性。

Flamingo

由DeepMind开发的FlamingoFlamingo是一个多模态LLM，旨在整合和处理视觉和文本数据。由DeepMind开发并于2022年发布，Flamingo以其能够以对话格式回答有关图像的问题而在各种视觉-语言任务中表现出色。

架构

Flamingo中的语言模型基于Chinchilla模型，该模型预先训练用于下一个标记预测。它预测给定一系列先前字符的下一组字符，这个过程称为自回归建模。

多模态LLM在语言模型中使用多个交叉注意力块，以权衡当前文本给定的视觉嵌入的不同部分的重要性。这种机制允许模型在生成文本响应时关注相关的视觉特征。

训练过程

Flamingo的训练过程分为三个阶段。每个阶段的详细信息如下：

预训练：
- 视觉编码器使用CLIP（对比语言-图像预训练）进行预训练，涉及对视觉编码器和文本编码器在图像-文本对上的训练。在此阶段之后，文本编码器被丢弃。
自回归训练：
- 语言模型在下一个标记预测任务上进行预训练，它学习预测文本序列中的后续标记。
最终训练：
- 在最后阶段，将未经训练的交叉注意力块和未经训练的感知器重采样器插入模型中。然后，模型在包含交错图像和文本的输入上进行下一个标记预测任务的训练。在这个阶段，视觉编码器和语言模型的权重被冻结，只有感知器重采样器和交叉注意力块被更新和训练。

因此，Flamingo作为一个能够整合和处理文本和视觉数据的多功能和强大的多模态LLM脱颖而出。它展示了多模态LLM在推进AI基于不同数据类型理解和生成响应的能力方面的潜力。

BLIP-2

BLIP-2于2023年初发布。它代表了一种先进的视觉和语言模型集成方法，使模型能够执行需要理解文本和图像的各种任务。

架构

BLIP-2使用一个预训练的图像编码器，通常是一个CLIP预训练模型。该编码器将图像转换为可以由架构其余部分处理的嵌入。BLIP-2中的语言模型组件是OPT或Flan-T5模型，它们都是在大量文本数据上预训练的。

BLIP-2的架构还包括：

Q-Former：
- 视觉组件：接收一组可学习的嵌入和冻结图像编码器的输出。这些嵌入通过交叉注意力层处理，允许模型权衡不同视觉输入部分的重要性。
- 文本组件：处理文本输入。
- Q-Former是一个独特的组件，充当图像编码器和LLM之间的桥梁。它由两个主要部分组成：
投影层：
- Q-Former处理嵌入后，一个投影层将这些嵌入转换为与LLM兼容。这确保了Q-Former的输出可以无缝集成到语言模型中。

训练过程

BLIP-2的两阶段训练过程可以解释如下：

第一阶段：Q-Former训练：
- 图像-文本对比学习：类似于CLIP，这个目标确保相应图像-文本对的嵌入在嵌入空间中接近。
- 图像-基础文本生成：这涉及为图像生成字幕，训练模型基于视觉输入产生连贯的文本描述。
- 图像-文本匹配：一个二元分类任务，模型确定给定的图像和文本对是否匹配（1）或不匹配（0）。
- Q-Former在三个特定目标上进行训练：
第二阶段：完整模型构建和训练：
- 在这个阶段，通过在Q-Former和LLM之间插入投影层来构建完整模型。现在任务涉及描述输入图像，在这个阶段的训练中，只有Q-Former和投影层被更新，而图像编码器和LLM保持冻结。

因此，BLIP-2代表了多模态LLM领域的一个重大进步，结合了一个预训练的图像编码器和一个强大的LLM以及创新的Q-Former组件。

图灵AI云

关注

28
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
多模态在LLMs中的作用：7个必须了解的多模态LLMs的强大功能

在人工智能（AI）的领域内，模态是指能够被AI模型所处理和理解的数据的特定类型或形态。AI的通常所见的多模态数据来源文本：涵盖所有类型的书面语言，包括文章、书籍、社交媒体帖子以及其他形式的文本数据。图像：包含视觉数据，如照片、图画，以及所有其他数字格式的视觉表现。音频：囊括声音数据，包括语音、音乐和各种环境声音。视频：指结合了图像序列（帧）和音频的内容，例如电影、教育视频和监控录像。其他模态：还可能包括传感器数据、3D模型，甚至是与触觉相关的触觉反馈技术。
复制链接

扫一扫