Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

目录

1.介绍(introduction)

2.历史回顾(review)

3.表示(representation)

4.映射(Translation/Mapping)

5.对齐(Alignment)

6.融合(Fusion )

7.联合学习(Co-learning)

8.结论(conclusion)


以下是本人每一章节整理的笔记:

1.介绍(introduction)

论文总体介绍了多模态的五个方向/挑战:表示(representation)、映射(Translation)、对齐(Alignment)、融合(Fusion )、联合学习(Co-learning)。

2.历史回顾(review)

对多模态应用领域进行了简单历史回顾:视听语音识别、多媒体内容检索、理解人类行为等方向应用进行简单的描述。

以下部分就开始对五个挑战/方向进行描述:

3.表示(representation)

定义:就是找到多模态信息的统一表示,在计算机中一般是向量或张量

      表示方法              定义    面临困难  实现方法     适用情景     应用领域

 联合表(joint)

将各个模态的数据源映射到同一个空间中进行表示

1.如何把不同模态的数据结合起来

2.如何处理不同层(level)的噪音

3.如何处理丢失的数据

神经网络

概率图模型

Sequential模型
输入所有模态数据来得出结果,如输入语音和图片来得出识别结果视听语音识别、多模态手势识别

     协同表示

(coordinated)
分别将各模态投影到独立的空间中表示,但是这些空间有约束关系

相似度模型

结构化模型
输入一种模态来得出结果,如输入一张狗的图片,输出“狗”的文本多模态检索和翻译、grounding、零样本学习

4.映射(Translation/Mapping)

定义:映射就是把一个模态的信息映射成另一个模态的信息

映射方法定义面临的困难实现方法应用领域

基于例子模型

(example-based)
在多模态之间建立字典,形成对应关系由于答案通常非常开放和主观,难以实现评估,如一张图片的描述文字可以有多种

基于检索模型

Combination-based模型

媒体字幕生成

视频描述

文本生成图片

生成式模型

(generative)
通过训练,让模型产生映射能力

基于语法模型

编码解码模型

连续生成模型

 

5.对齐(Alignment)

定义:寻找多种模态的子成分之间的关系和对应,如图片中的狗对齐文本中的狗

对齐方法                 定义          面临的困难    实现方法

显式对齐

(explicit)
显式对齐就是对齐任务的子结构,如菜谱步骤和视频的对齐

1.很少有显式对齐标注的数据集

2.在模态之间设置相似度指标很困难

3.存在多种对应关系以及不是每种模态的元素在另一模态都有对应

无监督方法

(弱)监督方法

隐式对齐

(implicit)
隐式对齐用作另一个任务的中间步骤,如文本检索图像,单词和图像区域的对齐

图模型

神经网络

6.融合(Fusion )

定义:将多个模态的信息整合到一起来预测结果

  融合方法    定义    面临的困难 实现方法     适用场景    应用领域
无模型方法不依赖与某个特定的机器学习算法

1.信号可能不是时序对齐的(密集连续的信号和稀疏的事件),比如一段视频只对应一个单词

2.每种模态在不同时间点可能会出现不同类型和不同层次的噪音

特征融合

决策融合

混合融合
它们几乎可以使用任何单模分类器或回归器来实现

多模态说话者(speaker)识别

多媒体事件检测
基于模型的方法显式的在构造中完成融合

多核学习

图模型

神经网络
在数据量有限或者模型的可解释性很重要的时候,多核学习和图模型更好

物标分类

表情识别

视听语音识别

7.联合学习(Co-learning)

定义:通过数据源丰富的模态来辅助数据源稀少的模态进行学习

   按数据分类               定义          实现方法     应用领域
平行数据来自相同的数据集,实例之间有直接的对应关系

Co-training

Transfer learning

视觉分类

动作识别

视听语音识别

语义相似度估计
非平行数据来自不同的数据集,没有重叠的实例,但在一般类别或概念重叠

Transfer learning

Conceptual grounding

Zero shot learning
混合数据实例或概念由第三种模式或数据集连接Bridging

8.结论(conclusion)

作者在结尾讲到,以前对融合这个方向做了很长时间研究,但是近段时间研究者们更热衷表示和映射这两个方向

  • 5
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
上传者不拥有讲义的原始版权。所有版权归属CMU。 该文件集是CMU开设的11-777课程,名为multimodal machine learning,每年fall学期开设。 本讲义是2019 Fall的版本。 课程介绍: Description Multimodal machine learning (MMML) is a vibrant multi-disciplinary research field which addresses some of the original goals of artificial intelligence by integrating and modeling multiple communicative modalities, including linguistic, acoustic and visual messages. With the initial research on audio-visual speech recognition and more recently with language vision projects such as image and video captioning, this research field brings some unique challenges for multimodal researchers given the heterogeneity of the data and the contingency often found between modalities. The course will present the fundamental mathematical concepts in machine learning and deep learning relevant to the five main challenges in multimodal machine learning: (1) multimodal representation learning, (2) translation mapping, (3) modality alignment, (4) multimodal fusion and (5) co-learning. These include, but not limited to, multimodal auto-encoder, deep canonical correlation analysis, multi-kernel learning, attention models and multimodal recurrent neural networks. We will also review recent papers describing state-of-the-art probabilistic models and computational algorithms for MMML and discuss the current and upcoming challenges. The course will discuss many of the recent applications of MMML including multimodal affect recognition, image and video captioning and cross-modal multimedia retrieval. This is a graduate course designed primarily for PhD and research master students at LTI, MLD, CSD, HCII and RI; others, for example (undergraduate) students of CS or from professional master programs, are advised to seek prior permission of the instructor. It is required for students to have taken an introduction machine learning course such as 10-401, 10-601, 10-701, 11-663, 11-441, 11-641 or 11-741. Prior knowledge of deep learning is recommended.
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值