多模态简述

最新推荐文章于 2025-05-08 20:19:02 发布

没有不重的名么

最新推荐文章于 2025-05-08 20:19:02 发布

阅读量1.0k

点赞数 16

分类专栏：深度学习文章标签：人工智能 transformer 神经网络网络

本文链接：https://blog.csdn.net/m0_61595251/article/details/143817594

版权

深度学习专栏收录该内容

15 篇文章

订阅专栏

多模态学习概念

【多模态简述-哔哩哔哩】 https://b23.tv/UrUyfln

定义：

模态：事物表达或感知的方式

多模态：研究异构和相互连接数据的科学，涵盖了从原始的器官信号到抽象概念的多种模态

语音和语言是理解人物交互的关键模态，而情感和图像就为我们提供了对环境和对对象的感知，通过分析模态可以更好的理解人类是如何通过不同的方式感知和表达信息

多模态的行为和信号：

理解和分析人类行为的重要信号

多模态的研究发展历史：

近五年，深度学习的发展推动了多模态研究的进展，使我们深入的探索和理解不同模态的复杂关系

近两年，大模型的蓬勃发展，多模态又进行创新

多模态的研究任务：

上世纪80s-90s：语音、视觉识别

现在：如何结合语言和视觉两种模态，开发更复杂的人工智能系统；通过视觉理解场景内容，通过语言进一步理解场景中发生的事情或对象之间的关系

语言：理解世界和沟通思想的基础

视觉：感知世界的关键

多模态学习六大挑战

Representation（表示学习）：

例如现在的Transformer，将文本、图像等信息都表示为一个token，这就是一个表示学习

目标：

学习能够反映不同模态之间交叉交互的表示，包括融合、协调、分裂等子挑战

分类：

融合：将不同模态的信息融合在一起

协调：确保不同模态之间的信息能够协同工作

分裂：将结合的信息重新拆分，更便于分析理解

Alignment（对齐）：

将文本和图像对齐，有助于更好的了解其中的信息，确保了不同模态的信息可以被正确的关联和理解

定义：

涉及识别和建模，多个模态之间的交叉连接，将其从数据结构中构建起来

分类：

包括了连接、对齐表示、分割等子挑战，以及显式和隐式对齐，个体元素的粒度问题

Reasoning（推理）：

多模态推理结合了知识，通过多个推理步骤，利用多模态对齐和问题结构

分类：

要求不仅要了解单个模态的信息，还要理解他们如何相互作用以及如何影响整体的过程，然后对其进行内部信息推理，得到最终结果。

Generation（生成）：

定义：

关注学习生成的一个过程，反应交叉模态交互结构和一致性的原始模态

分类：

要求不仅要理解现有的信息（文本、图像），还需要创造性的理解以及生成一些新的一致性信息

Transference（迁移）：

定义：

在模态之间转换知识，通常为了帮助目标模态，这些模态可能是嘈杂的或者是资源有限的

目标：

用一个模态的知识去增强另一个模态，以此来提高另一个模态的性能或者鲁棒性

Quantification（量化）：

定义：

对多模态理论的实证或理论研究，以此来更好的理解异构性；不仅以定性的角度了解多模态学习，还要能量化和评估不同模态之间的交互和整体学习效果。

多模态领域的经典工作：

ViLT：

一种新型的视觉-语言预训练模型，通过简化视觉输入处理，摒弃了传统的卷积神经网络和区域监督方法。ViLT使用Transformer模块直接处理像素级输入，与文本输入的线性嵌入方式一致，显著提升了模型的效率和速度。

实验证明，ViLT在视觉问答和图像-文本检索等任务上具有与现有模型相当或更优的性能，同时大幅度减少了计算量和模型参数。此外，ViLT还首次在VLP训练中采用了整词Mask和图像增强技术，进一步提升了性能。该模型为视觉-语言研究提供了一个更高效，简化的新架构。

CLIP：

CLIP通过从互联网上收集的4亿对图像-文本对进行预训练学习而来。CLIP的核心创新在于直接利用自然语言作为监督信号，而非传统的固定类别标注数据。这种方法突破了传统计算机视觉系统对特定预定义类别的依赖，实现了在多种计算机视觉任务上的zero-shot迁移能力。

CLIP通过对比学习框架，同时训练图像编码器和文本编码器，预测图象与其对应文本的正确配对。CLIP在超过30个不同的现有计算机视觉数据集上进行了基准测试，包括OCR、视频动作识别、地理定位和多种细粒度物体分类任务。结果显示，CLIP在大多数任务上都能平凡地迁移，并且与全监督基线相当，无需特定数据集的训练。此外，CLIP在ImageNet上的零样本准确率与原始的ResNet-50相当，且未使用其训练中使用的128万张训练样本。

ALBEF：

定义：一种强调在融合之前先对不同模态数据进行对齐的多模态学习框架

ALBEF是一种新型的视觉-语言表示学习框架，通过对比损失在融合前对齐图像和文本表示，以实现更准确的多模态学习。该方法无需边界框注释或高分辨率图像，采用动量蒸馏（MoD）自训练方法，从噪声网络数据中学习，提高预训练和下游任务的性能。ALBEF在多项视觉-语言任务上取得了最先进的结果，如图像-文本检索、视觉问答（VQA）和NLVR等，同时具有更快的推理速度。该框架提供了从互信息最大化角度的理论分析。

ITM：二分类任务，给定一个图片和一个文本加一个分类头，判断图片和文本是否为一个对

MLM：随机Mask掉一些单词，并进行重建

BLIP：

BLIP，一种新的多模态视觉-语言预训练框架，旨在统一视觉-语言理解与生成任务。BLIP通过两个主要创新点实现性能提升：多模态混合编码器-解码器（MED）架构，它能够灵活地处理多种任务；其次是引入了标题生成和过滤（CapFlit）方法，通过生成合成标题并过滤噪声标题来优化从网络收集的噪声数据。BLIP在多项视觉-语言任务上实现了最先进的结果，包括图像-文本检索、图像字母生成和视觉问答（VQA），并且在视频语言任务上展示了强大的零样本泛化能力。