多模态表示学习
-
联合表示学习:将多模态的信息一起映射到一个统一的多模态向量空间
-
协同表示学习:将多模态中的每个模态分别映射到各自的向量表示空间,但是映射后的向量满足一定的相关性约束。
模态转换
也可以称之为映射,主要是将一个模态的信息转换或者映射为另一个模态。
主要应用·
机器翻译(Machine Translation)、唇读(Lip Reading)和语音翻译(SpeechTranslation)
图片描述(lmage Captioning)与视频描述(Video Captioning)
语音合成(Speech Synthesis)
对齐
模态对齐
- 显式对齐
- 隐式对齐
多模态融合
多模态融合(Multimodal Fusion )负责联合多个模态的信息,进行目标预测(分类或者回归),属于 MMML 最早的研究方向之一,也是目前应用最广的方向,它还存在其他常见的别名,例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)。
-
数据级别:数据单纯的融合在一起,通过模型在一起处理
斜体样式效果可能不太好,对模型要求高。 -
判定级别:提取不同的特征向量,当进入判定阶段的时候进行相关处理。
更为常见,实现起来较为简单 -
组合融合:在模型结构的每一层中,进行融合的过程。
*对水平要求比较高,理论效果最好 *
相关任务: -
多模态情感分析
-
视觉-音频识别
协同学习
通过利用资源丰富(比如数据量大)的模态的知识来辅助资源稀缺(比如较小数据)的模态建立模型。