Multi-Modal

Multimodal

  • https://zhuanlan.zhihu.com/p/53511144
  • 《多源信息融合》(韩崇昭等著)
  • Multimodal machine learning: A survey and taxonomy, 2018

motivation

  • 可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集
  • 通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示

problem

  • open-ended,即未知结束位,例如实时翻译中,在还未得到句尾的情况下,必须实时的对句子进行翻译
  • subjective,即主观评判性,是指很多模态转换问题的效果没有一个比较客观的评判标准,也就是说目标函数的确定是非常主观的。例如,在图片描述中,形成怎样的一段话才算是对图片好的诠释
  • 如何判断每个模态的置信水平、如何判断模态间的相关性、如何对多模态的特征信息进行降维以及如何对非同步采集的多模态数据进行配准等。

研究方向

多模态表示学习 Multimodal Representation

  • 联合表示(Joint Representations): 映射到一个统一的多模态向量空间
  • 协同表示(Coordinated Representations): 分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关)
    • 狗的图片特征向量 - 狗的文本特征向量 + 猫的文本特征向量 = 猫的图片特征向量 -> 在特征向量空间,根据最近邻距离,检索得到猫的图片 (《Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models》)

模态转化 Translation

  • 机器翻译(Machine Translation)
  • 对给定的图片/视频形成一段文字描述: 秒读论文
  • 语音合成(Speech Synthesis)

对齐 Alignment

  • 来自同一个实例的不同模态信息的子分支/元素寻找对应关系。这个对应关系可以是时间维度的,比如下图所示的 Temporal sequence alignment,将一组动作对应的视频流同骨骼图片对齐。类似的还有电影画面-语音-字幕的自动对齐。
  • 空间维度: 图片语义分割 (Image Semantic Segmentation)
    • 尝试将图片的每个像素对应到某一种类型标签,实现视觉-词汇对齐。

多模态融合 Multimodal Fusion\多源信息融合(Multi-source Information Fusion)\多传感器融合(Multi-sensor Fusion)

  • 联合多个模态的信息,进行目标预测(分类或者回归)
  • 按照融合的层次,分为 pixel level对原始数据进行融合,feature level 抽象的特征进行融合和 decision level对决策结果进行融合 三类。
    • 而 feature level 又可以分为 early 和 late 两个大类,代表了融合发生在特征抽取的早期和晚期。当然还有将多种融合层次混合的 hybrid 方法。
method
  • 视觉-音频识别(Visual-Audio Recognition): 综合源自同一个实例的视频信息和音频信息,进行识别工作。
  • 多模态情感分析(Multimodal sentiment analysis): 综合利用多个模态的数据(例如下图中的文字、面部表情、声音),通过互补,消除歧义和不确定性,得到更加准确的情感类型判断结果。
  • 手机身份认证(Mobile Identity Authentication): 综合利用手机的多传感器信息,认证手机使用者是否是注册用户。

协同学习 Co-learning

  • 使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值