多模态技术简单介绍

多模态表示学习

  • 联合表示学习:将多模态的信息一起映射到一个统一的多模态向量空间

  • 协同表示学习:将多模态中的每个模态分别映射到各自的向量表示空间,但是映射后的向量满足一定的相关性约束。
    在这里插入图片描述

模态转换

也可以称之为映射,主要是将一个模态的信息转换或者映射为另一个模态。

主要应用·
机器翻译(Machine Translation)、唇读(Lip Reading)和语音翻译(SpeechTranslation)
图片描述(lmage Captioning)与视频描述(Video Captioning)
语音合成(Speech Synthesis)

对齐

模态对齐

  • 显式对齐
  • 隐式对齐

多模态融合

多模态融合(Multimodal Fusion )负责联合多个模态的信息,进行目标预测(分类或者回归),属于 MMML 最早的研究方向之一,也是目前应用最广的方向,它还存在其他常见的别名,例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)。

  • 数据级别:数据单纯的融合在一起,通过模型在一起处理
    在这里插入图片描述
    斜体样式效果可能不太好,对模型要求高。

  • 判定级别:提取不同的特征向量,当进入判定阶段的时候进行相关处理。
    在这里插入图片描述
    更为常见,实现起来较为简单

  • 组合融合:在模型结构的每一层中,进行融合的过程。
    在这里插入图片描述
    *对水平要求比较高,理论效果最好 *
    相关任务:

  • 多模态情感分析
    在这里插入图片描述

  • 视觉-音频识别
    在这里插入图片描述

协同学习

通过利用资源丰富(比如数据量大)的模态的知识来辅助资源稀缺(比如较小数据)的模态建立模型。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值