跟着chatgpt一起学|多模态入门

目录

一、多模态的学习路径

二、多模态表示学习

2.1 定义:

2.2 目的:

2.3 主要挑战

2.4 常见方法及论文

1. 联合表示学习

2. 协同训练

3. 跨模态映射

4. 多视角学习

2.5 应用

2.6 代表模型

2.7 评估指标

三、多模态的融合技术

1. 早期融合(Early Fusion):

2. 晚期融合(Late Fusion): 

3. 中间融合(Intermediate Fusion):

4. 基于注意力机制的融合(Attention-based Fusion):

5. 基于图的融合(Graph-based Fusion):


一、多模态的学习路径

大家可以根据这个学习路径来进行学习,基础知识和单模态学习不再赘述,下面从多模态基础开始。

二、多模态表示学习

2.1 定义:

多模态表示学习是指从多种不同类型的数据源(如图像、文本、音频、视频等)中学习统一的、有意义的特征表示的过程。

2.2 目的:

  • 创建能够捕捉多种模态间共享语义的统一表示
  • 促进不同模态间的信息融合和转换
  • 提高跨模态任务的性能,如跨模态检索、多模态分类等

2.3 主要挑战

    1. 异构性
        不同模态的数据具有不同的统计特性和表示方式
    2. 对齐
        在不同模态间找到对应关系
    3.融合
        有效地结合来自不同模态的信息
    4. 缺失模态
        处理某些模态可能缺失的情况


2.4 常见方法及论文

1. 联合表示学习

        将多个模态的数据同时输入网络,学习共享表示

  •  模型
    • VGG-Net + LSTM
  • 论文
    • Show and Tell: A Neural Image Caption Generator  (2015)
    • Deep Visual-Semantic Alignments for Generating Image Descriptions  (2015)

2. 协同训练

        分别训练每个模态的编码器,但通过某种方式强制它们学习相似的表示

  • 模型
    • CLIP (Contrastive Language-Image Pre-training)
  • 论文
    • Learning Transferable Visual Models From Natural Language Supervision  (2021)
    • ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy

3. 跨模态映射

        学习从一个模态到另一个模态的映射函数

  • 模型
    • CycleGAN
  • 论文
    • Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (2017)
    • Image-to-Image Translation with Conditional Adversarial Networks (2017)

4. 多视角学习

        将每个模态视为数据的一个"视角",学习它们的共同表示

  • 模型
    • Deep Canonical Correlation Analysis (DCCA)
  • 论文
    • Deep Canonical Correlation Analysis (2013)
    • Multi-View Learning of Word Embeddings via CCA (2011)

2.5 应用

  • 跨模态检索(如以图搜文)
  • 多模态情感分析
  • 视觉问答系统
  • 多模态机器翻译
  • 多模态推荐系统
     

2.6 代表模型

后续会有论文精读,和这几篇不一样,带大家一起了解下。

2.7 评估指标

  • 跨模态检索性能(如平均精度MAP)

  • 下游任务性能(如分类准确率、BLEU分数等)

  • 表示的可解释性和泛化能力

三、多模态的融合技术

多模态融合是一个复杂的研究领域,涉及多种技术方法。以下是一些常见的多模态融合技术:

1. 早期融合(Early Fusion):

在特征提取阶段就将不同模态的数据进行融合,形成联合表示。优点是可以捕捉模态间的低层次关联,但可能会丢失一些模态特有信息。

2. 晚期融合(Late Fusion): 

在决策阶段才将各模态的处理结果进行融合。保留了各模态的独立性,但可能错过模态间的一些相互作用。

3. 中间融合(Intermediate Fusion):

在网络的中间层对不同模态特征进行融合,是早期融合和晚期融合的折中方案。

4. 基于注意力机制的融合(Attention-based Fusion):

使用注意力机制来动态调整不同模态特征的重要性,有助于模型关注最相关的信息。

5. 基于图的融合(Graph-based Fusion):

将多模态数据表示为图结构,利用图神经网络来学习模态间的关系。

后续还有多模态的论文精读,可以关注一下!

多模态论文串讲-学习笔记(上)-CSDN博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值